下载此文档

领域知识图谱的技术与应用.docx


文档分类:医学/心理学 | 页数:约20页 举报非法文档有奖
1/20
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/20 下载此文档
文档列表 文档介绍
领域应用 | 知识图谱的技术与应用
本文转载自民众号: 贪婪科技 。
领域应用 | 知识图谱的技术与应用
李文哲 开放知识图谱 1 周前
本文转载自民众号: 贪婪科技 Gates? ,我们”直接能够获取答案 -“Melinda Gates ”。这是因为我们在系统层面上已经创立好了一个包含 “ Bill Gates和 ”
“ Melinda Gates 的”实体以及他俩之间关系的知识库。因此,当我们履行搜寻的
时候,就能够经过要点词提取( ”Bill Gates ”, “Melinda Gates ”),以“及wife知识”
库上的般配能够直接获取最后的答案。 这种搜寻方式跟传统的搜寻引擎是不相同的,一个传统的搜寻引擎它返回的是网页、 而不是最后的答案, 因此就多了一层用户自己挑选并过滤信息的过程。
在现实世界中,实体和关系也会拥有各自的属性,比方人能够有 “姓名 ”和 “年纪 ”。
当一个知识图谱拥有属性时,我们能够用属性图( Property Graph )来表示 。
下边的图表示一个简单的属性图。李明和李飞是父子关系,并且李明拥有一个
138 开头的电话号,这个电话号开通时间是 2018 年,此中 2018 年就能够作为
关系的属性。近似的,李明自己也带有一些属性值比方年纪为 25 岁、职位是总
经理等。

种属性图的表达很切近现实生活中的场景, 也能够很好地描绘业务中所包含的逻
辑。除了属性图,知识图谱也能够用 RDF 来表示,它是由好多的三元组 (Triples )来构成。 RDF 在设计上的主要特色是易于公布和分享数据,但不支持实体或关
系拥有属性,假如非要加上属性,则在设计上需要做一些改正。目前来看, RDF 主要还是用于学术的场景, 在工业界我们更多的还是采纳图数据库 (比方用来储存属性图)的方式。感兴趣的读者能够参照 RDF 的有关文件,在文本里不多做解说。
知识抽取
知识图谱的建立是后续应用的基础, 并且建立的前提是需要把数据从不同的数据源中抽拿出来。对于垂直领域的知识图谱来说, 它们的数据源主要来自两种渠道:一种是业务自己的数据,这部分数据往常包含在企业内的数据库表并以构造化
的方式储存;另一种是网络上公然、抓取的数据,这些数据往常是以网页的形式存在因此是非构造化的数据。
前者一般只需要简单预办理即能够作为后续 AI 系统的输入,但后者一般需要借
助于自然语言办理等技术来提拿出构造化信息。比方在上边的搜寻例子里, Bill Gates 和 Malinda Gate 的关系就能够从非构造化数据中提炼出来,比方维基百科等数据源。
优选
信息抽取的难点在于办理非构造化数据。在下边的图中,我们给出了一个实例。左侧是一段非构造化的英文文本,右侧是从这些文本中抽拿出来的实体和关系。在建立近似的图谱过程中间,主要波及以下几个方面的自然语言办理技术:
实体命名辨别( Name Entity Recognition )
关系抽取( Relation Extraction )
实体一致( Entity Resolution )
指代消解( Coreference Resolution )
下边针对每一项技术解决的问题做简单的描绘,以致于这些是详细怎么实现的,不在这里一一睁开,感兴趣的读者能够查阅有关资料,或许学习我的课程。
优选
第一是实体命名辨别,就是从文本里提拿出实体并对每个实体做分类 /打标签:
比方从上述文本里,我们能够提拿出实体 -“NYC”,并标志实体种类为 “Location;”我们也能够从中提拿出 “V

领域知识图谱的技术与应用 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数20
  • 收藏数0 收藏
  • 顶次数0
  • 上传人东风倩倩
  • 文件大小542 KB
  • 时间2022-07-25