网站怎么做来流量/重庆seo整站优化系统
作者:得助智能NLP团队 杨春勇
得助智能一直致力于智能客服核心算法研发,知识图谱能够解决问答领域中的难点问题,目前已经在多个项目中使用
知识图谱是什么
知识图谱是一种复杂网络
一、实体节点组成的一种复杂网络
二、关系图谱、事理图谱更偏向于是复杂网络
1、更适合用复杂网络的方法来做:图论、组合数学、矩阵理论、概率论、随机过程、优化理论
2、可以用物理的方法来研究:动力学、随机游走、玻色爱因斯坦凝聚,临界模型等
知识图谱是一种知识表示
知识是一种信号、数据、信息、信息最终表示成知识
陈述性知识
流程性知识:第一步,第二步,带有逻辑步骤的知识
在实际使用中,得助智能通过适当的本体建模,合作企业重庆百货的所有的知识都可以,放入知识图谱
知识图谱
一、语义网络
1、节点-知识点
2、边-知识点之间的关系
语义网络和一阶逻辑具有等价的表达能力
一阶谓词逻辑的推理是不可判定的(不可判定逻辑系统_百度百科),而且一阶逻辑的线性表示使得并行推理变得困难。相比而言,语义网络由于采用了图表示,可以采用一些并行计算框架,比如说Pregel,来做推理,从而可以构建高效的并行推理机
知识图谱演变
知识图谱的概念是2012年由谷歌提出,早期都是语义网络
专家系统:具有严格逻辑语义的表示和推理
语义网时代叫知识库,谷歌后面叫知识图谱
知识图谱例子
Knowledge Vault
1. Knowledge Vault以互联网信息为基础的知识库。
2. 知识来源:Gmail、Google+、Youtube
3. 通过特定算法自动搜集整编互联网信息,再将其存入数据库中。
4. Knowledge Vault的入库信息已达16亿条(至 2014年),其中2.7亿条内容为“事 实”(真实性在90%以上)
5. Google Knowledge graph
6. Facebook graph search
7. Graphql
8. 百度的知识图谱
9. 搜狗的知立方
领域受限
1. 注重开放领域的知识图谱构建
2. 行业知识图谱构建工具不成熟
3. 对时空属性的建模缺失
4. 对实体的时序性建模不足,如Event ·Yago 3在一定程度上考虑时间和地理属性
5. 自动构建比例低 ·自动构建是维护和保持知识图谱质量的核心技术
6. 知识更新困难 ·对动态的事件型知识维护不足
知识图谱构建
实体链接,实体对齐
一、质量评估
1、专家评测
2、标准数据构建
知识建模-本体
一、共享概念化的规范
二、本体与描述逻辑
1、 OWL
三、本体构成要素
1、个体、类、属性、关系、函数、约束、规则、公理、事件
描述逻辑是当前语义网发展中本体的理论基
描述逻辑(description logic)是一种用于知识表示的逻辑语言和以其为对象的推理方法,主要用于描述概念分类及其概念之间的关系。
一个描述逻辑系统中的名字可分为概念(concept),属性(role)和个体(individual)
基于描述逻辑进而丰富表达和精准计算属性的OWL DL和OWL Lite,以及以资源描述架构(英文:resource description framwork:RDF) 提供兼容叙述的OWL Full
本体库的构建相当于构建了数据的schema,知识库里面存储的本体的实例(实体),共同构成了知识图谱
体=本体+实例:实体是本体、实例及关系的整合,比如“人”是本体框中的一个概念,概念中也规定了相关属性比如“性别”,小明是一个具体的人,叫做实例,所以小明也有性别,小明以及体现小明的本体概念“人”以及相关属性,叫做一个实体(简单的说就是:本体+实例)
Neon 也提出了ODPs
可能也不基于本体来做:
1、新的知识表示模型
2、Ontology engineering已经被用了超过15年 ·利用表示学习进行建模
3、新类型的知识图谱 ·不再围绕实体和关系的存储,如Event-centric KG
4、知识图谱自动构建技术 ·在Freebase中,71%的人没有出生日期 ·新技术:Distant Supervision, KG embedding, 知识集成
WordNet HowNet
一、基于词义簇构建本体
二、中文版:NTU的COW
三、HowNet
1、自上而下的归纳的方法
2、通过对全部的基本义原进行观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,据此建立完善的标注集:主要在义原的提取和考核
OWL
RDF
1、RDF(Resource Description Framework)
即资源描述框架,其本质是一个数据模型(Data Model)。它提供了一个统一的标准,用于描述实体/资源
2、RDF/XML,turtle,RDFa
RDFs
1、提供定义本体描述的语言
OWL
1、提供对本体更细致的描述,可用于推理
2、对称性,相反性,传递性,唯一性等
3、同一性映射(融合多个独立的个体)
Rdfa:
RDF知识描述标准,但是表达能力不足,需要本体语言
OWL 2/EL 使用场景:本体结构中有大量相互链接的类和属性,设计者想用自动推理机得到里面复杂的关系。
OWL 2/QL 使用场景:有大量的实例数据。OWL 2 QL本体可以被改写为SQL查询,适用于使用OBDA(ontology based data access)的方式来访问关系数据库。也就是说我们不用显式地把关系数据库中的数据转为RDF,而是通过映射的方式,将数据库转为虚拟RDF图进行访问。
OWL 2/RL 使用场景:需要结合基于规则的推理引擎(rule-based reasoning engine)的场合。
RDF图中一共有三种类型,International Resource Identifiers(IRIs),blank nodes 和 literals。下面是SPO每个部分的类型约束:
Subject可以是IRI或blank node。
Predicate是IRI。
Object三种类型都可以。
Yago 和 Freebase
一、基于wikipedia数据和其它数据源构建,并发布为RDF
二、Yago (Yet Another Great Ontology
融合wordnet 和wikipedia
三、Freebase
从Wikipedia和其他数据源 (如 IMDB、 MusicBrainz)中导入知识
CN-Dbpedia
一、由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科
1、CN-DBpedia主要从中文百科类网站(如百度百科、互动百科、中文维基百科等)的纯文本页面中提取信息,经过滤、融合、推断等操作后,最终形成高质量的结构化数据
2、包含900万+的百科实体以及6700万+的三元组关系
二、其它中文百科知识图谱:
1、XLore(清华大学)、Belief-Engine(中科院自动化所)、PKUPie(北京大学)、ZhOnto(狗尾草科技)
2、Cnschema 中文本体库
实体识别与抽取
一、基于规则与词典的识别
二、基于统计学习与深度学习的方法
1、无监督
面向开放域的实体抽取方法:已有实体语义特征+聚类等方法
2、有监督
关系识别与抽取
人工构造语义规则以及模板的方法识别实体关系
一、Distant Supervision
二、OIE
1、开放实体关系抽取
2、基于联合推理的实体关系抽取
三、属性抽取
Ratel
一、高效的机器学习与规则结合的文本挖掘系统
1、具有一套完整的声明式语言(DSL)
2、具有基于Eclipse的IDE开发环境,支持语法检查、结果查看与规则溯源、规则 执行时间统计。
3、可接入分词、词性识别、命名实体识别、分类、关键词抽取等机器学习模型
事件抽取
一、事件抽取可以分为预定义事件抽取和开放域事件抽取
1、领域知识图谱中主要为预定义事件抽取
二、采用模式匹配方法:
1、准备事件触发词表
2、候选事件抽取:寻找含有触发词的句子
3、事件元素识别:根据事件模版抽取相应的元素
事理图谱
事理图谱(Event Evolutionary Graph)是 一个描述事件之间顺承、因果关系的事理演化 逻辑有向图。
结构化数据的建模主要在于数据融合,知识建模