当前位置: 首页 > news >正文

app开发的网站/app软件推广平台

app开发的网站,app软件推广平台,短视频网站php源码免费,外卖网站怎么做本文概述为了提取HTML文件的内容, Tika使用了HtmlParser。 HtmlParser是一个类, 用于提取HTML文件的内容和元数据。此类位于org.apache.tika.parser.html包中。它包含下表中列出的构造函数和方法。正确的HtmlParser构造函数ConstructorDescription公共HtmlParser()它用于创建类…

本文概述

为了提取HTML文件的内容, Tika使用了HtmlParser。 HtmlParser是一个类, 用于提取HTML文件的内容和元数据。此类位于org.apache.tika.parser.html包中。它包含下表中列出的构造函数和方法。

正确的HtmlParser构造函数

Constructor

Description

公共HtmlParser()

它用于创建类的实例。

公共HtmlParser(EncodingDetector encodingDetector)

它通过获取EncodingDetector类的实例来创建HtmlParser类的实例。

Tika HtmlParser方法

Method

Description

公共Set getSupportedTypes(ParseContext上下文)

当与给定的解析上下文一起使用时, 它返回此解析器支持的媒体类型集。

公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException

它将文档流解析为一系列XHTML SAX事件。

受保护的字符串mapSafeElement(字符串名称)

它用于将安全HTML元素名称映射到语义XHTML等效项。

受保护的布尔值isDiscardElement(String name)

它检查是否应放弃给定HTML元素内的所有内容, 而不是将其包括在解析输出中。

公共String mapSafeAttribute(String elementName, String attributeName)

它使用HtmlMapper机制来自定义HTML映射。

@Field public void setExtractScripts(boolean extractScripts)

它确定是否提取脚本实体中的内容。

公共布尔getExtractScripts()

它用于获取提取的脚本。

Tika HTML文件提取示例

在此示例中, 我们正在提取HTML文件的内容和元数据。参见示例。

package tikaexample;

import java.io.IOException;

import java.io.InputStream;

import org.apache.tika.exception.TikaException;

import org.apache.tika.metadata.Metadata;

import org.apache.tika.parser.ParseContext;

import org.apache.tika.parser.html.HtmlParser;

import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class HtmlParse {

public static void main(final String[] args) throws IOException, SAXException, TikaException {

BodyContentHandler handler = new BodyContentHandler();

HtmlParser parser = new HtmlParser();

Metadata metadata = new Metadata();

ParseContext pcontext = new ParseContext();

try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("index.html")) {

parser.parse(stream, handler, metadata, pcontext);

}

System.out.println("Document Content:" + handler.toString());

System.out.println("Document Metadata:");

String[] metadatas = metadata.names();

for(String meta : metadatas) {

System.out.println(meta + ": " + metadata.get(meta));

}

}

}

输出

Document Content:

Hello, Welcome to srcmini.

Document Metadata:

dc:title: Index Page

Content-Encoding: ISO-8859-1

title: Index Page

Content-Type: text/html; charset=ISO-8859-1

http://www.lbrq.cn/news/1604161.html

相关文章:

  • 在国内做电商网站需要什么审核/宜兴百度推广
  • 网站设计的背景/重庆seo快速优化
  • 新兴网站建设/北京it培训机构哪家好
  • 承接设计网站建设/搜索引擎营销简称seo
  • 手机功能网站案例/域名注册要多少钱
  • php网站安装图解/青岛seo整站优化哪家专业
  • wordpress utf8 gbk/深圳网站seo外包公司哪家好
  • 网站右键屏蔽/西安百度推广代理商
  • web网站开发毕业论文/郑州关键词seo
  • 龙华建网站/谷歌商店下载官网
  • 常州微信网站建设/什么是百度搜索推广
  • 自贡北京网站建设/打开一个网站
  • 电商会学着做网站呢/做网站设计的公司
  • 贵州安顺做公司网站/sem技术培训
  • 在哪里找人做网站靠谱/媒体宣传推广方案
  • 自己这么做网站/怎么开发网站
  • 青岛市住房和城乡建设局网站/重庆森林壁纸
  • wordpress 404自定义/网站优化是什么意思
  • wordpress精致主题/长沙网站seo公司
  • 运营商网站登录注册/公司个人怎么做网络推广
  • 购物网站建设成本/专业做网站官网
  • 抖音代运营会不会看到以往的数据/长沙百度搜索排名优化
  • 购物车网站设计/全网营销推广案例
  • 做淘客都有什么网站/cfa三级和一二级关系大吗
  • 海洋高端的专业做网站/域名注册流程和费用
  • 株洲网站制作建设/b2b网站有哪些平台
  • 西安商城网站制作/百度数字人内部运营心法曝光
  • 网站死链/迈步者seo
  • 天津住房和城乡建设厅官方网站/网址外链平台
  • 内衣网站建立/做百度推广多少钱
  • android内存作假通杀补丁(4GB作假8GB)
  • 深度学习TR3周:Pytorch复现Transformer
  • 【MySQL】MySQL中锁有哪些?
  • 【2025/08/03】GitHub 今日热门项目
  • 《深入浅出RabbitMQ:从零基础到面试通关》
  • 面经——电子电路技术知识详解