下载此文档

基于LSTM的生物医学核心实体提取模型研究.docx


文档分类:论文 | 页数:约17页 举报非法文档有奖
1/17
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/17 下载此文档
文档列表 文档介绍
基于LSTM的生物医学核心实体提取模型研究
 
 
唐颖 曹春萍
摘 要:识别一篇生物医学文献中的核心实体是准确提取该文献信息的前提。针对目前生物医学文献实体识别和筛选方法的局限性,提出了基于LSTM的生物医学核心实体提取模型。该模型以LSTM为核心,通过更为优秀的词向量和输入生成规则改良模型输入,使用双向LSTM模型改进处理过程,将结果保存为树形结构并对该树进行合理剪枝获取标注链,实现输出结果处理,%。此外,在核心实体筛选过程中,基于TF/IDF算法规则,充分考虑了词频、位置、逆文档频率等因素,%。
关键词:实体识别;改进词向量;双向LSTM;剪枝策略;核心实体筛选
DOI:
:TP319
:A :1672-7800(2018)005-0132-06
Abstract:Identifying the core entities in a biomedical document is a prerequisite for accurate extraction of important information of the document. In view of the difficulties of entity and the limitations of existing methods of entity recognition and core entity screening in biomedical literature, a model of biomedical core entity extraction based on LSTM is proposed in this paper. The model takes LSTM as the core, applies the more excellent word vector and input generation rules to improve the model input, and employs the two-dimensional LSTM model to improve model of the process, The results are saved into the tree structure and reasonable pruning of the tree to achieve the output chain annotation way to obtain. Entity recognition F1 value reached %. In addition, in the process of core entity screening, the factors such as word frequency, location and inverse document frequency are fully taken into account on the premise of TF/IDF algorithm rules, and the F1 value of core entity screening is up to %.
Key Words:entity recognition; improved word vector; bidirectional LSTM; pruning strategy; core entity screening
0 引言
生物醫学科技的飞速发展带来生物医学文献量空前庞大,文献数量的指数级增长不可避免地导致生物医学信息爆炸,要从文献中获取核心信息,依靠人工阅读需要耗费大量的时间成本和人力资源。如何迅速且精准地获取文章观点,以短小精悍的文本形式呈现给读者,成为当下亟待解决的难题。
2008年,孙风梅[1]提出医学文献主题分为单元主题、多元主题、多主题等类型。单元主题指一个概念即可表达一个主题,如抑癌基因(tumor suppressor genes)、脑缺血(brain ischemia)、高血压(hypertension);多元主题指一个主题概念需要几个概念组在一起共同表达,如食道皮肤瘘是由食道瘘和皮瘘(esophageal fistula + cutaneous fistula)组成的概念;多主题指一篇文献涉及到多个既相互独立又相互联系的主题概念,如“体外循环的脑保护和肺保护”涉及到了“体外循环的脑保护”和“体外循环的肺保护”两个主题概念。主题往往会涉及到一些医学上的名词概念,而这

基于LSTM的生物医学核心实体提取模型研究 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数17
  • 收藏数0 收藏
  • 顶次数0
  • 上传人科技星球
  • 文件大小170 KB
  • 时间2022-01-06