2023年8月1日发(作者:)

什么是知识图谱?通俗易懂知识图谱理解作者:⼤数据DT来源:⼤数据DT导读:知识图谱的概念诞⽣于2012年,由Google公司⾸先提出。知识图谱的提出是为了准确地阐述⼈、事、物之间的关系,最早应⽤于搜索引擎。知识图谱是为了描述⽂本语义,在⾃然界建⽴实体关系的知识数据库。⼀般情况下,我们可以使⽤关系图来表⽰知识图谱。01 什么是知识图谱我们可以从不同的视⾓去审视知识图谱的概念。在Web视⾓下,知识图谱如同简单⽂本之间的超链接⼀样,通过建⽴数据之间的语义链接,⽀持语义搜索。在⾃然语⾔处理视⾓下,知识图谱就是从⽂本中抽取语义和结构化的数据。在知识表⽰视⾓下,知识图谱是采⽤计算机符号表⽰和处理知识的⽅法。在⼈⼯智能视⾓下,知识图谱是利⽤知识库来辅助理解⼈类语⾔的⼯具。在数据库视⾓下,知识图谱是利⽤图的⽅式去存储知识的⽅法。⽬前,学术界还没有给知识图谱⼀个统⼀的定义。在⾕歌发布的⽂档中有明确的描述,知识图谱是⼀种⽤图模型来描述知识和建模世界万物之间关联关系的技术⽅法。知识图谱还是⽐较通⽤的语义知识的形式化描述框架,它⽤节点表⽰语义符号,⽤边表⽰语义之间的关系,如图3-1所⽰。在知识图谱中,⼈、事、物通常被称作实体或本体。▲图3-1 知识图谱⽰例知识图谱的组成三要素包括:实体、关系和属性。实体:⼜叫作本体(Ontology),指客观存在并可相互区别的事物,可以是具体的⼈、事、物,也可以是抽象的概念或联系。实体是知识图谱中最基本的元素。关系:在知识图谱中,边表⽰知识图谱中的关系,⽤来表⽰不同实体间的某种联系。如图3-1所⽰,图灵和⼈⼯智能之间的关系,知识图谱和⾕歌之间的关系,⾕歌和深度学习之间的关系。属性:知识图谱中的实体和关系都可以有各⾃的属性,如图3-2所⽰。▲图3-2 知识图谱中的属性知识图谱的构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多⽅⾯技术。知识图谱的应⽤则体现在语义搜索、智能问答、语⾔理解、决策分析等多个领域。02 知识图谱的价值知识图谱最早应⽤于搜索引擎,⼀⽅⾯通过推理实现概念检索,另⼀⽅⾯以图形化⽅式向⽤户展⽰经过分类整理的结构化知识,从⽽使⼈们从⼈⼯过滤⽹页寻找答案的模式中解脱出来,可应⽤到智能问答、⾃然语⾔理解、推荐等⽅⾯。知识图谱的发展得益于Web技术的发展,受KR、NLP、Web以及AI等⽅⾯的影响。知识图谱的价值归根结底是为了让AI变得更智慧。1. 助⼒搜索搜索的⽬的是在万物互联的⽹络中,能够使⼈们⽅便、快速地找到某⼀事物。⽬前,我们的搜索习惯和搜索⾏为仍然是以关键词为搜索⽬的,知识图谱的出现可以彻底改变这种搜索⾏为模式。在知识图谱还没有应⽤到搜索引擎上时,搜索的流程是:从海量的URL中找出与查询匹配度最⾼的URL,按照查询结果把排序分值最⾼的⼀些结果返回给⽤户。在整个过程中,搜索引擎可能并不需要知道⽤户输⼊的是什么,因为系统不具备推理能⼒,在精准搜索⽅⾯也略显不⾜。⽽基于知识图谱的搜索,除了能够直接回答⽤户的问题外,还具有⼀定的语义推理能⼒,⼤⼤提⾼了搜索的精确度。图3-3所⽰是知识图谱助⼒搜索⽰意图。▲图3-3 知识图谱助⼒搜索2. 助⼒推荐推荐技术和搜索技术⾮常相似,但是稍有区别。搜索技术采⽤信息拉取的⽅式,⽽推荐技术采⽤信息推送的⽅式,所以在推荐技术中有⼀些问题,⽐如冷启动和数据稀疏问题。以电商推荐为例介绍知识图谱在推荐上的应⽤。假设我买了⼿机,⼿机的强下位关系是⼿机壳,这样系统就可以给我推荐⼿机壳,同时也可以推荐相似或互补的实体。图3-4为知识图谱助⼒推荐⽰意图。▲图3-4 知识图谱助⼒推荐3. 助⼒问答问答与对话系统⼀直是NLP在⼈⼯智能实现领域的关键标志之⼀。知识图谱相当于是给问答与对话系统挂载了⼀个背景知识库。对于问答与对话系统或者聊天机器⼈来说,其除了需要实体知识图谱和兴趣知识图谱等开放领域的稀疏⼤图外,还需要针对机器⼈和⽤户个性化的稠密⼩图。同时,知识图谱是需要动态更新的。图3-5是知识图谱助⼒问答⽰意图。▲图3-5 知识图谱助⼒问答03 知识图谱的架构知识图谱的架构涉及知识表⽰、知识获取、知识处理和知识利⽤等多个⽅⾯。⼀般情况下,知识图谱构建流程如下:⾸先确定知识表⽰模型,然后根据不同的数据来源选择不同的知识获取⼿段并导⼊相关的知识,接着利⽤知识推理、知识融合、知识挖掘等技术构建相应的知识图谱,最后根据不同应⽤场景设计知识图谱的表现⽅式,⽐如:语义搜索、智能推荐、智能问答等。从逻辑上,我们可以将知识图谱划分为两个层次:数据层和模式层。数据层可以是以事实为单位存储的数据库,可以选⽤的图数据库有RDF4j、Virtuoso、Neo4j等三元组。<实体,关系,实体>或者<实体,属性,属性值>可以作为基本的表达⽅式,存储在图数据库中。模式层建⽴在数据层之上,是知识图谱的核⼼。通常,通过本体库来管理数据层,本体库的概念相当于对象中“类”的概念。借助本体库,我们可以管理公理、规则和约束条件,规范实体、关系、属性这些具体对象间的关系。知识图谱有⾃顶向下和⾃底向上两种构建⽅式。⾃顶向下构建是指借助百科类数据源,提取本体和模式信息,并加⼊知识库中。⾃底向上构建是指借助⼀定的技术⼿段,从公开的数据中提取资源,选择其中置信度较⾼的信息,经⼈⼯审核后,加⼊知识库中。在知识图谱发展初期,多数企业和机构采⽤⾃顶向下的⽅式构建知识图谱,⽬前⼤多企业采⽤⾃底向上的⽅式构建知识图谱。知识图谱的架构如图3-6所⽰。▲图3-6 知识图谱的架构知识源:包括结构化数据、⾮结构化数据和半结构化数据。信息抽取:就是从各种类型的数据源中提取实体、属性以及实体间的相互关系,在此基础上形成本体的知识表述。知识图谱的构建过程中存在⼤量的⾮结构化或者是半结构化数据,这些数据在知识图谱的构建过程中需要通过⾃然语⾔处理的⽅法进⾏信息抽取。从这些数据中,我们可以提取出实体、关系和属性。知识融合:主要⼯作是把结构化的数据以及信息抽取提炼到的实体信息,甚⾄第三⽅知识库进⾏实体对齐和实体消歧。这⼀阶段的输出应该是从各个数据源融合的各种本体信息。知识加⼯:知识加⼯阶段如图3-6所⽰,其中知识推理中重要的⼯作就是知识图谱的补全。常⽤的知识图谱的补全⽅法包括:基于本体推理的补全⽅法、相关的推理机制实现以及基于图结构和关系路径特征的补全⽅法。

2023年8月1日发(作者:)

什么是知识图谱?通俗易懂知识图谱理解作者:⼤数据DT来源:⼤数据DT导读:知识图谱的概念诞⽣于2012年,由Google公司⾸先提出。知识图谱的提出是为了准确地阐述⼈、事、物之间的关系,最早应⽤于搜索引擎。知识图谱是为了描述⽂本语义,在⾃然界建⽴实体关系的知识数据库。⼀般情况下,我们可以使⽤关系图来表⽰知识图谱。01 什么是知识图谱我们可以从不同的视⾓去审视知识图谱的概念。在Web视⾓下,知识图谱如同简单⽂本之间的超链接⼀样,通过建⽴数据之间的语义链接,⽀持语义搜索。在⾃然语⾔处理视⾓下,知识图谱就是从⽂本中抽取语义和结构化的数据。在知识表⽰视⾓下,知识图谱是采⽤计算机符号表⽰和处理知识的⽅法。在⼈⼯智能视⾓下,知识图谱是利⽤知识库来辅助理解⼈类语⾔的⼯具。在数据库视⾓下,知识图谱是利⽤图的⽅式去存储知识的⽅法。⽬前,学术界还没有给知识图谱⼀个统⼀的定义。在⾕歌发布的⽂档中有明确的描述,知识图谱是⼀种⽤图模型来描述知识和建模世界万物之间关联关系的技术⽅法。知识图谱还是⽐较通⽤的语义知识的形式化描述框架,它⽤节点表⽰语义符号,⽤边表⽰语义之间的关系,如图3-1所⽰。在知识图谱中,⼈、事、物通常被称作实体或本体。▲图3-1 知识图谱⽰例知识图谱的组成三要素包括:实体、关系和属性。实体:⼜叫作本体(Ontology),指客观存在并可相互区别的事物,可以是具体的⼈、事、物,也可以是抽象的概念或联系。实体是知识图谱中最基本的元素。关系:在知识图谱中,边表⽰知识图谱中的关系,⽤来表⽰不同实体间的某种联系。如图3-1所⽰,图灵和⼈⼯智能之间的关系,知识图谱和⾕歌之间的关系,⾕歌和深度学习之间的关系。属性:知识图谱中的实体和关系都可以有各⾃的属性,如图3-2所⽰。▲图3-2 知识图谱中的属性知识图谱的构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多⽅⾯技术。知识图谱的应⽤则体现在语义搜索、智能问答、语⾔理解、决策分析等多个领域。02 知识图谱的价值知识图谱最早应⽤于搜索引擎,⼀⽅⾯通过推理实现概念检索,另⼀⽅⾯以图形化⽅式向⽤户展⽰经过分类整理的结构化知识,从⽽使⼈们从⼈⼯过滤⽹页寻找答案的模式中解脱出来,可应⽤到智能问答、⾃然语⾔理解、推荐等⽅⾯。知识图谱的发展得益于Web技术的发展,受KR、NLP、Web以及AI等⽅⾯的影响。知识图谱的价值归根结底是为了让AI变得更智慧。1. 助⼒搜索搜索的⽬的是在万物互联的⽹络中,能够使⼈们⽅便、快速地找到某⼀事物。⽬前,我们的搜索习惯和搜索⾏为仍然是以关键词为搜索⽬的,知识图谱的出现可以彻底改变这种搜索⾏为模式。在知识图谱还没有应⽤到搜索引擎上时,搜索的流程是:从海量的URL中找出与查询匹配度最⾼的URL,按照查询结果把排序分值最⾼的⼀些结果返回给⽤户。在整个过程中,搜索引擎可能并不需要知道⽤户输⼊的是什么,因为系统不具备推理能⼒,在精准搜索⽅⾯也略显不⾜。⽽基于知识图谱的搜索,除了能够直接回答⽤户的问题外,还具有⼀定的语义推理能⼒,⼤⼤提⾼了搜索的精确度。图3-3所⽰是知识图谱助⼒搜索⽰意图。▲图3-3 知识图谱助⼒搜索2. 助⼒推荐推荐技术和搜索技术⾮常相似,但是稍有区别。搜索技术采⽤信息拉取的⽅式,⽽推荐技术采⽤信息推送的⽅式,所以在推荐技术中有⼀些问题,⽐如冷启动和数据稀疏问题。以电商推荐为例介绍知识图谱在推荐上的应⽤。假设我买了⼿机,⼿机的强下位关系是⼿机壳,这样系统就可以给我推荐⼿机壳,同时也可以推荐相似或互补的实体。图3-4为知识图谱助⼒推荐⽰意图。▲图3-4 知识图谱助⼒推荐3. 助⼒问答问答与对话系统⼀直是NLP在⼈⼯智能实现领域的关键标志之⼀。知识图谱相当于是给问答与对话系统挂载了⼀个背景知识库。对于问答与对话系统或者聊天机器⼈来说,其除了需要实体知识图谱和兴趣知识图谱等开放领域的稀疏⼤图外,还需要针对机器⼈和⽤户个性化的稠密⼩图。同时,知识图谱是需要动态更新的。图3-5是知识图谱助⼒问答⽰意图。▲图3-5 知识图谱助⼒问答03 知识图谱的架构知识图谱的架构涉及知识表⽰、知识获取、知识处理和知识利⽤等多个⽅⾯。⼀般情况下,知识图谱构建流程如下:⾸先确定知识表⽰模型,然后根据不同的数据来源选择不同的知识获取⼿段并导⼊相关的知识,接着利⽤知识推理、知识融合、知识挖掘等技术构建相应的知识图谱,最后根据不同应⽤场景设计知识图谱的表现⽅式,⽐如:语义搜索、智能推荐、智能问答等。从逻辑上,我们可以将知识图谱划分为两个层次:数据层和模式层。数据层可以是以事实为单位存储的数据库,可以选⽤的图数据库有RDF4j、Virtuoso、Neo4j等三元组。<实体,关系,实体>或者<实体,属性,属性值>可以作为基本的表达⽅式,存储在图数据库中。模式层建⽴在数据层之上,是知识图谱的核⼼。通常,通过本体库来管理数据层,本体库的概念相当于对象中“类”的概念。借助本体库,我们可以管理公理、规则和约束条件,规范实体、关系、属性这些具体对象间的关系。知识图谱有⾃顶向下和⾃底向上两种构建⽅式。⾃顶向下构建是指借助百科类数据源,提取本体和模式信息,并加⼊知识库中。⾃底向上构建是指借助⼀定的技术⼿段,从公开的数据中提取资源,选择其中置信度较⾼的信息,经⼈⼯审核后,加⼊知识库中。在知识图谱发展初期,多数企业和机构采⽤⾃顶向下的⽅式构建知识图谱,⽬前⼤多企业采⽤⾃底向上的⽅式构建知识图谱。知识图谱的架构如图3-6所⽰。▲图3-6 知识图谱的架构知识源:包括结构化数据、⾮结构化数据和半结构化数据。信息抽取:就是从各种类型的数据源中提取实体、属性以及实体间的相互关系,在此基础上形成本体的知识表述。知识图谱的构建过程中存在⼤量的⾮结构化或者是半结构化数据,这些数据在知识图谱的构建过程中需要通过⾃然语⾔处理的⽅法进⾏信息抽取。从这些数据中,我们可以提取出实体、关系和属性。知识融合:主要⼯作是把结构化的数据以及信息抽取提炼到的实体信息,甚⾄第三⽅知识库进⾏实体对齐和实体消歧。这⼀阶段的输出应该是从各个数据源融合的各种本体信息。知识加⼯:知识加⼯阶段如图3-6所⽰,其中知识推理中重要的⼯作就是知识图谱的补全。常⽤的知识图谱的补全⽅法包括:基于本体推理的补全⽅法、相关的推理机制实现以及基于图结构和关系路径特征的补全⽅法。