当前位置：首页 > news >正文

app开发的网站/app软件推广平台

news 2025/8/5 14:34:58

app开发的网站,app软件推广平台,短视频网站php源码免费,外卖网站怎么做本文概述为了提取HTML文件的内容, Tika使用了HtmlParser。 HtmlParser是一个类, 用于提取HTML文件的内容和元数据。此类位于org.apache.tika.parser.html包中。它包含下表中列出的构造函数和方法。正确的HtmlParser构造函数ConstructorDescription公共HtmlParser()它用于创建类…

本文概述

为了提取HTML文件的内容, Tika使用了HtmlParser。 HtmlParser是一个类, 用于提取HTML文件的内容和元数据。此类位于org.apache.tika.parser.html包中。它包含下表中列出的构造函数和方法。

正确的HtmlParser构造函数

Constructor

Description

公共HtmlParser()

它用于创建类的实例。

公共HtmlParser(EncodingDetector encodingDetector)

它通过获取EncodingDetector类的实例来创建HtmlParser类的实例。

Tika HtmlParser方法

Method

Description

公共Set getSupportedTypes(ParseContext上下文)

当与给定的解析上下文一起使用时, 它返回此解析器支持的媒体类型集。

公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException

它将文档流解析为一系列XHTML SAX事件。

受保护的字符串mapSafeElement(字符串名称)

它用于将安全HTML元素名称映射到语义XHTML等效项。

受保护的布尔值isDiscardElement(String name)

它检查是否应放弃给定HTML元素内的所有内容, 而不是将其包括在解析输出中。

公共String mapSafeAttribute(String elementName, String attributeName)

它使用HtmlMapper机制来自定义HTML映射。

@Field public void setExtractScripts(boolean extractScripts)

它确定是否提取脚本实体中的内容。

公共布尔getExtractScripts()

它用于获取提取的脚本。

Tika HTML文件提取示例

在此示例中, 我们正在提取HTML文件的内容和元数据。参见示例。

package tikaexample;

import java.io.IOException;

import java.io.InputStream;

import org.apache.tika.exception.TikaException;

import org.apache.tika.metadata.Metadata;

import org.apache.tika.parser.ParseContext;

import org.apache.tika.parser.html.HtmlParser;

import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class HtmlParse {

public static void main(final String[] args) throws IOException, SAXException, TikaException {

BodyContentHandler handler = new BodyContentHandler();

HtmlParser parser = new HtmlParser();

Metadata metadata = new Metadata();

ParseContext pcontext = new ParseContext();

try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("index.html")) {

parser.parse(stream, handler, metadata, pcontext);

}

System.out.println("Document Content:" + handler.toString());

System.out.println("Document Metadata:");

String[] metadatas = metadata.names();

for(String meta : metadatas) {

System.out.println(meta + ": " + metadata.get(meta));

}

输出

Document Content:

Hello, Welcome to srcmini.

Document Metadata:

dc:title: Index Page

Content-Encoding: ISO-8859-1

title: Index Page

Content-Type: text/html; charset=ISO-8859-1

查看全文

http://www.lbrq.cn/news/1604161.html

在国内做电商网站需要什么审核/宜兴百度推广

php网站安装图解/青岛seo整站优化哪家专业

wordpress utf8 gbk/深圳网站seo外包公司哪家好

wordpress 404自定义/网站优化是什么意思

wordpress精致主题/长沙网站seo公司

运营商网站登录注册/公司个人怎么做网络推广

购物网站建设成本/专业做网站官网

抖音代运营会不会看到以往的数据/长沙百度搜索排名优化

购物车网站设计/全网营销推广案例

做淘客都有什么网站/cfa三级和一二级关系大吗

海洋高端的专业做网站/域名注册流程和费用

株洲网站制作建设/b2b网站有哪些平台

西安商城网站制作/百度数字人内部运营心法曝光

网站死链/迈步者seo

天津住房和城乡建设厅官方网站/网址外链平台

内衣网站建立/做百度推广多少钱

android内存作假通杀补丁（4GB作假8GB）

深度学习TR3周：Pytorch复现Transformer

【MySQL】MySQL中锁有哪些？

【2025/08/03】GitHub 今日热门项目

《深入浅出RabbitMQ：从零基础到面试通关》

面经——电子电路技术知识详解

相关文章：