N和LSTM混合模型的中文文本分类研究
彭玉青宋初柏闫倩赵晓松魏铭
河北工业大学计算机科学与软件学院
X
关注成功!
加关注后您将方便地在我的关注中得到本文献的被引频次变化的通知!
新浪微博
腾讯微博
人人网
开心网
豆瓣网
网易微博
摘 要:
深度学习在自然语言处理上有着广泛的应用。但由于自然语言本身在结构上有着一定的前后依赖性, 并且将中文文本直接转化为向量会导致维度过高, 这些都限制了现有文本分类方法的精度。本文提出一种超深卷积神经网络(N) 与长短记忆网络(LSTM) 相结合的混合模型, N的深度结构有效提取文本向量的特征, 利用LSTM具有存储历史信息的特点提取长文本的上下文依赖关系, 同时引入词嵌入(Word Embedding) 将文本转换为低维度向量。将该混合模型在Sogou语料库和复旦大学中文语料库上进行了实验, 实验结果可以得出该混合模型有效提升了文本分类的精确率。
关键词:
文本分类; 卷积神经网络; 长短记忆网络; 词嵌入; 深度残差网络;
作者简介:彭玉青(1969-) , 女, 教授, CCF会员(E200035449M) , 主要研究方向为智能信息处理、计算视觉;
作者简介:宋初柏, 硕士研究生
作者简介:闫倩, 硕士研究生
作者简介:赵晓松, 硕士研究生
作者简介:魏铭, 硕士研究生
收稿日期:2017-09-18
基金:河北省自然基金重点项目(F2016202144) ;河北省自然基金面上项目(F2017202145)
Research on Chinese text classification based on hybrid model of N and LSTM
Peng Yuqing Song Chubai Yan Qian Zhao Xiaosong Wei Ming
School puter Science and Engineering, Hebei University of Technology;
Abstract:
Deep learning has a widely application in natural language processing. But the natural language itself has a certain dependence on the structure, and converting the Chinese text directly to the vector will lead to vector dimensions too high, which limits the accuracy of the existing text classification methods. This paper proposes a a hybrid model of very deep convolution work (N) and Long Short-Term work (LSTM) , feature extraction of text vector effectively by using the depth structure of N, LSTM has the characteristics of storing historical information to extract the context dependency of long text, and introduce Word Embedding to convert the text into low dimension vector. The hybrid model was tested on the Sogou corpus and the Chinese corpus of Fudan University, the experimental results can be concluded that the hybrid model effectively improves the accuracy of text classification.
Keyword:
text classification; CNN; LSTM; word embedding; s;
Received: 2017-09-18
0概述
随着互联网技术和移动社交网络平台的发展, 网络中的文本信息量呈爆发式增长, 鉴于网络平台实时性较强的特点, 这些文本信息虽然具有极大的潜在价值, 但是在网络中以杂乱的形式存在, 缺乏有效的信息组织和管理。而文本分类作为组织和管理文本信息的有效
n和lstm混合模型的中文文本分类研究 来自淘豆网m.daumloan.com转载请标明出处.