当前位置：首页 > news >正文

作文库网站/上海seo优化公司bwyseo

news 2025/8/14 4:53:48

作文库网站,上海seo优化公司bwyseo,建站平台在线提交表格功能,wordpress根目录没有.htaccess由于我们的业务系统中有大量的MHT格式的资料，需要对其建立索引，搜索很久了一直没有找到相关解析的类库，只好自己动手丰衣足食了。已实现内容的提取以及和lucene的整合，稍后会完善编码检测及其他内容的提取，做一个完整的…

由于我们的业务系统中有大量的MHT格式的资料，需要对其建立索引，搜索很久了一直没有找到相关解析的类库，只好自己动手丰衣足食了。已实现内容的提取以及和lucene的整合，稍后会完善编码检测及其他内容的提取，做一个完整的parser出来。

文本内容提取：首先提取html部分的内容，解码之后使用nekoHtml提取文本内容；

public class MhtDocHandler extends HtmDocHandler {

private DOMFragmentParser parser = new DOMFragmentParser();

public Document getDocument(InputStream is) throws DocumentHandlerException {

DocumentFragment node = new HTMLDocumentImpl().createDocumentFragment();

try {

String mhts = IOUtils.toString(is);

int a1 = mhts.indexOf("

int a2 = mhts.indexOf("");

String html = mhts.substring(a1, a2 + 8);

//在mht中文本按照QuotedPrintable格式编码

html = decodeQuotedPrintable(html, "UTF-8");

StringReader r = new StringReader(html);

parser.parse(new InputSource(r), node);

}

catch (Exception e) {

throw new DocumentHandlerException("Cannot parse MHT document: ", e);

}

Document doc = new Document();

StringBuffer sb = new StringBuffer();

getText(sb, node, "title");

String title = sb.toString().trim();

sb.setLength(0);

getText(sb, node, "body");

String text = sb.toString().trim();

if (!title.equals("")) {

doc.add(new Field(WikiDOC.DOC_TITLE, title,

Field.Store.YES, Field.Index.TOKENIZED,

Field.TermVector.WITH_POSITIONS_OFFSETS));

}

if (!text.equals("")) {

doc.add(new Field(WikiDOC.DOC_CONTENT, text,

Field.Store.COMPRESS, Field.Index.TOKENIZED,

Field.TermVector.WITH_POSITIONS_OFFSETS));

}

return doc;

}

public static String decodeQuotedPrintable(String str, String encoding) {

if (str == null) {

return null;

}

try {

//str = str.replaceAll("=\n", "");//??

byte[] bytes = str.getBytes("US-ASCII");

ByteArrayOutputStream buffer = new ByteArrayOutputStream();

for (int i = 0; i

int b = bytes[i];

if (b == '=') {

int u = Character.digit((char) bytes[++i], 16);

int l = Character.digit((char) bytes[++i], 16);

if (u == -1 || l == -1) {//??

continue;

}

buffer.write((char) ((u <

} else {

buffer.write(b);

}

}

return buffer.toString(encoding);

}

catch (Exception e) {

e.printStackTrace();

return str;

}

}

}

http://www.lbrq.cn/news/1576153.html

相关文章：

昆山做网站费用/优秀软文营销案例

哔哩哔哩适合夫妻看的电视剧/搜索引擎优化实验报告

网站建设的基本过程/百度seo怎么收费

提卡网站要怎么做/网络推广外包加手机蛙软件

网站做直播需要什么资质/汽车宣传软文

毕业设计做视频网站/鸡西seo顾问

广州建站模板平台/免费广州seo

怎么做网上网站/百度首页登录入口

wordpress 封面图像/搜狗网站seo

重庆任务盟网站建设/查权重的软件

怎样在绍兴e网做网站/网络舆情分析报告

门户网站做的比较好的公司/市场推广方案ppt

nodejs做网站的弊端/在线查网站的ip地址

服装厂做1688网站效果好不好/semen

哪些网站做微课赚钱/北京搜索引擎推广公司

怎么做英文的网站首页/seo网站推广什么意思

网站建设小故事/seo自学网免费

flash网站需要改变/app推广软文范文

做酒水网站陕西有哪些/广州seo优化费用

刷赞网站空间/百度手机助手下载安卓版

建设官方网站需要那些人员/郑州搜索引擎优化

兰州最好的网站开发公司/广州网站排名优化公司

支付招聘网站套餐费用怎么做帐/网上销售渠道

做网站php/搜索引擎优化的目标

佛山建站模板/上海专业seo服务公司

正规的网站建设明细报价表/电脑编程培训学校哪家好

四川省住房和城乡建设厅门户网站/哈尔滨网站优化

招标网站建设方案/网络seo哈尔滨

做网站微信朋友圈应该怎么发/企业如何建立网站

为什么我的网站只有新闻业被收录/网络营销活动方案

【科研绘图系列】R语言绘制特定区域颜色标记散点图

力扣 hot100 Day71

地图可视化实践录：显示地理区域图

day48 力扣739. 每日温度力扣496.下一个更大元素 I 力扣503.下一个更大元素II

【LeetCode 热题 100】（七）链表