领域应用 | 知识图谱的技术与应用
本文转载自民众号: 贪婪科技 。
领域应用 | 知识图谱的技术与应用
李文哲 开放知识图谱 1 周前
本文转载自民众号: 贪婪科技 Gates? ,我们”直接能够获取答案 -“Melinda Gates ”。这是因为我们在系统层面上已经创立好了一个包含 “ Bill Gates和 ”
“ Melinda Gates 的”实体以及他俩之间关系的知识库。因此,当我们履行搜寻的
时候,就能够经过要点词提取( ”Bill Gates ”, “Melinda Gates ”),以“及wife知识”
库上的般配能够直接获取最后的答案。 这种搜寻方式跟传统的搜寻引擎是不相同的,一个传统的搜寻引擎它返回的是网页、 而不是最后的答案, 因此就多了一层用户自己挑选并过滤信息的过程。
在现实世界中,实体和关系也会拥有各自的属性,比方人能够有 “姓名 ”和 “年纪 ”。
当一个知识图谱拥有属性时,我们能够用属性图( Property Graph )来表示 。
下边的图表示一个简单的属性图。李明和李飞是父子关系,并且李明拥有一个
138 开头的电话号,这个电话号开通时间是 2018 年,此中 2018 年就能够作为
关系的属性。近似的,李明自己也带有一些属性值比方年纪为 25 岁、职位是总
经理等。
这
种属性图的表达很切近现实生活中的场景, 也能够很好地描绘业务中所包含的逻
辑。除了属性图,知识图谱也能够用 RDF 来表示,它是由好多的三元组 (Triples )来构成。 RDF 在设计上的主要特色是易于公布和分享数据,但不支持实体或关
系拥有属性,假如非要加上属性,则在设计上需要做一些改正。目前来看, RDF 主要还是用于学术的场景, 在工业界我们更多的还是采纳图数据库 (比方用来储存属性图)的方式。感兴趣的读者能够参照 RDF 的有关文件,在文本里不多做解说。
知识抽取
知识图谱的建立是后续应用的基础, 并且建立的前提是需要把数据从不同的数据源中抽拿出来。对于垂直领域的知识图谱来说, 它们的数据源主要来自两种渠道:一种是业务自己的数据,这部分数据往常包含在企业内的数据库表并以构造化
的方式储存;另一种是网络上公然、抓取的数据,这些数据往常是以网页的形式存在因此是非构造化的数据。
前者一般只需要简单预办理即能够作为后续 AI 系统的输入,但后者一般需要借
助于自然语言办理等技术来提拿出构造化信息。比方在上边的搜寻例子里, Bill Gates 和 Malinda Gate 的关系就能够从非构造化数据中提炼出来,比方维基百科等数据源。
优选
信息抽取的难点在于办理非构造化数据。在下边的图中,我们给出了一个实例。左侧是一段非构造化的英文文本,右侧是从这些文本中抽拿出来的实体和关系。在建立近似的图谱过程中间,主要波及以下几个方面的自然语言办理技术:
实体命名辨别( Name Entity Recognition )
关系抽取( Relation Extraction )
实体一致( Entity Resolution )
指代消解( Coreference Resolution )
下边针对每一项技术解决的问题做简单的描绘,以致于这些是详细怎么实现的,不在这里一一睁开,感兴趣的读者能够查阅有关资料,或许学习我的课程。
优选
第一是实体命名辨别,就是从文本里提拿出实体并对每个实体做分类 /打标签:
比方从上述文本里,我们能够提拿出实体 -“NYC”,并标志实体种类为 “Location;”我们也能够从中提拿出 “V
领域知识图谱的技术与应用 来自淘豆网m.daumloan.com转载请标明出处.