大数据时代知识图谱分析
耿江涛 匡增意 骆清霞
【摘 要】大数据技术的发展,催生了Google以语义网和领域本体为其关键技术的大规模语义网络知识库——知识图谱(Knowledge Graph)的诞生和发展,不但在计算机科学领域发挥重大作用,且日益应用到其他领域。同时,在图书情报领域基于引文分析可视化、知识地图和知识网络等研究产生的科学知识图谱(Mapping Knowledge Domain)也在近二十年间得到了长足的发展。随着研究领域的融合,有必要分析两者的研究内涵,厘清两者的关系,在知识管理方面优势互补,发挥更大的作用。
【关键词】科学知识图谱; Google知识图谱; 语义网; 大数据
引言
就中文字面而言,知识图谱的研究既有在图书情报领域广泛使用的科学知识图谱,又有在计算机科学领域的Google知识图谱。虽然两者在发展过程中都简称为知识图谱,但其英文内涵、使用技术及应用都有本质的不同。
科学知识图谱是在图书情报领域基于引文分析可视化、知识地图和知识网络等研究产生的,采用可视化的图谱,形象地展示所研究学科的框架、历史、现状和未来。
Google知识图谱是在计算机科学领域,人工智能的深度学习技术赋能传统语义网(Semantic Web)的研究,通过构建本体(Ontology)建构大规模语义网络知识库,并对相关信息进行可视化研究,是大数据时代知识管理的必然产物。
科学知识图谱通过文献分析及可视化技术,绘制文献计量图(Bibliometric mapping)及文献地图(Literature mapping),以科学地图(Science mapping)表现形式,紧扣英文Mapping地图和向导的内涵,特别易于展现学科的结构、历史沿革和发展趋势、以及研究前沿等内容。
从知识管理的视角而言,科学知识图谱是以学科文献为研究对象,用“图”(可视化图形)和“谱”(结构化的谱系)的方式展示学科的发展与结构。
知识有语言、文字、图像等多种表达形式,但人类对视觉图形则有更强的理解和识记能力,百闻不如一见、一图胜万言。在知识学习方面,广泛使用概念图、思维导图等图形工具展现概念、设计及关系等。
科学知识图谱以文献分析的引文分析和共引分析构建学科的知识基础,通过建立数学模型和网络结构,并绘制可视化图形,以形象化地显示学科结构、热点、历史与趋势。
样本数据获取。主要数据来源:Web of Science;科学文献数据:SCI, SSCI;国际会议文献数据:CPCI;其他国际文献数据库:Scopus,Science Direct
国内数据库:CNKI、CSSCI、CSCD、万方等。
网络数据源:Google Scholar、arXiv。
(2)样本数据清洗。样本数据的质量决定了分析的质量。为此,需要对文献数据库采集的数据进行清洗预处理操作。包括对数据分段,修正原始数据的明显错误,以及进行去掉重复数据的处理。
(3)选择知识单元。选择知识单元是进行知识处理的最基本工作。首先选择话题(Topic):包括题名(Title)、关键词、【摘 要】、作者等,此外资源类型、学科和研究方向等多种内容。
(4)构建知
大数据时代知识图谱分析 来自淘豆网m.daumloan.com转载请标明出处.