当前位置: 首页 > news >正文

作文库网站/上海seo优化公司bwyseo

作文库网站,上海seo优化公司bwyseo,建站平台 在线提交表格功能,wordpress根目录没有.htaccess由于我们的业务系统中有大量的MHT格式的资料,需要对其建立索引,搜索很久了一直没有找到相关解析的类库,只好自己动手丰衣足食了。已实现内容的提取以及和lucene的整合,稍后会完善编码检测及其他内容的提取,做一个完整的…

由于我们的业务系统中有大量的MHT格式的资料,需要对其建立索引,搜索很久了一直没有找到相关解析的类库,只好自己动手丰衣足食了。已实现内容的提取以及和lucene的整合,稍后会完善编码检测及其他内容的提取,做一个完整的parser出来。

文本内容提取:  首先提取html部分的内容,解码之后使用nekoHtml提取文本内容;

public class MhtDocHandler extends HtmDocHandler {

private DOMFragmentParser parser = new DOMFragmentParser();

public Document getDocument(InputStream is) throws DocumentHandlerException {

DocumentFragment node = new HTMLDocumentImpl().createDocumentFragment();

try {

String mhts = IOUtils.toString(is);

int a1 = mhts.indexOf("

int a2 = mhts.indexOf("");

String html = mhts.substring(a1, a2 + 8);

//在mht中文本按照QuotedPrintable格式编码

html = decodeQuotedPrintable(html, "UTF-8");

StringReader r = new StringReader(html);

parser.parse(new InputSource(r), node);

}

catch (Exception e) {

throw new DocumentHandlerException("Cannot parse MHT document: ", e);

}

Document doc = new Document();

StringBuffer sb = new StringBuffer();

getText(sb, node, "title");

String title = sb.toString().trim();

sb.setLength(0);

getText(sb, node, "body");

String text = sb.toString().trim();

if (!title.equals("")) {

doc.add(new Field(WikiDOC.DOC_TITLE, title,

Field.Store.YES, Field.Index.TOKENIZED,

Field.TermVector.WITH_POSITIONS_OFFSETS));

}

if (!text.equals("")) {

doc.add(new Field(WikiDOC.DOC_CONTENT, text,

Field.Store.COMPRESS, Field.Index.TOKENIZED,

Field.TermVector.WITH_POSITIONS_OFFSETS));

}

return doc;

}

public static String decodeQuotedPrintable(String str, String encoding) {

if (str == null) {

return null;

}

try {

//str = str.replaceAll("=\n", "");//??

byte[] bytes = str.getBytes("US-ASCII");

ByteArrayOutputStream buffer = new ByteArrayOutputStream();

for (int i = 0; i 

int b = bytes[i];

if (b == '=') {

int u = Character.digit((char) bytes[++i], 16);

int l = Character.digit((char) bytes[++i], 16);

if (u == -1 || l == -1) {//??

continue;

}

buffer.write((char) ((u <

} else {

buffer.write(b);

}

}

return buffer.toString(encoding);

}

catch (Exception e) {

e.printStackTrace();

return str;

}

}

}

http://www.lbrq.cn/news/1576153.html

相关文章:

  • 昆山做网站费用/优秀软文营销案例
  • 哔哩哔哩适合夫妻看的电视剧/搜索引擎优化实验报告
  • 网站建设的基本过程/百度seo怎么收费
  • 提卡网站要怎么做/网络推广外包加手机蛙软件
  • 网站做直播需要什么资质/汽车宣传软文
  • 毕业设计做视频网站/鸡西seo顾问
  • 广州建站模板平台/免费广州seo
  • 怎么做网上网站/百度首页登录入口
  • wordpress 封面图像/搜狗网站seo
  • 重庆任务盟网站建设/查权重的软件
  • 怎样在绍兴e网做网站/网络舆情分析报告
  • 门户网站做的比较好的公司/市场推广方案ppt
  • nodejs做网站的弊端/在线查网站的ip地址
  • 服装厂做1688网站效果好不好/semen
  • 哪些网站做微课赚钱/北京搜索引擎推广公司
  • 怎么做英文的网站首页/seo网站推广什么意思
  • 网站建设小故事/seo自学网免费
  • flash网站需要改变/app推广软文范文
  • 做酒水网站陕西有哪些/广州seo优化费用
  • 刷赞网站空间/百度手机助手下载安卓版
  • 建设官方网站需要那些人员/郑州搜索引擎优化
  • 兰州最好的网站开发公司/广州网站排名优化公司
  • 支付招聘网站套餐费用怎么做帐/网上销售渠道
  • 做网站php/搜索引擎优化的目标
  • 佛山建站模板/上海专业seo服务公司
  • 正规的网站建设明细报价表/电脑编程培训学校哪家好
  • 四川省住房和城乡建设厅门户网站/哈尔滨网站优化
  • 招标网站建设方案/网络seo哈尔滨
  • 做网站微信朋友圈应该怎么发/企业如何建立网站
  • 为什么我的网站只有新闻业被收录/网络营销活动方案
  • 【科研绘图系列】R语言绘制特定区域颜色标记散点图
  • ETCD备份
  • 力扣 hot100 Day71
  • 地图可视化实践录:显示地理区域图
  • day48 力扣739. 每日温度 力扣496.下一个更大元素 I 力扣503.下一个更大元素II
  • 【LeetCode 热题 100】(七)链表