下载此文档

自然语言处理.pptx


文档分类:IT计算机 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
自然语言处理工具:jieba分词流程:1将所有文本进行数据清洗,(词性标注)筛选出所有名词,并保存文件2爬取数据,制作景点/酒店名词的用户字典3根据2的用户字典对1中的名词进行筛选(词性标注)筛选出所有景点/酒店名词,并保存文件4在对3中保存文件进行keyword排序(关键词抽取),并保存文件自然语言处理1jieba系统简介"结巴"中文分词:做最好的Python中文分词组件。特点:支持三种分词模式支持繁体分词支持自定义词典MIT授权协议涉及算法:基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,采用Viterbi算法进行计算;基于Viterbi算法的词性标注;分别基于tfidf和textrank模型抽取关键词;自然语言处理2jieba系统框架jieba分词系统,主要实现三个模块:1分词2词性标注3关键词抽取其中,分词有三种模式,默认是精确模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词;自然语言处理概念:NaturalLanguageProcessing/Understanding,自然语言处理/理解希望机器能像人一样去理解语言,理解以人类自然语言为载体的文本所包含的信息,并完成一些特定任务。处理文本:中文分词、词性标注、命名实体识别命名实体识别的任务就是识别出待处理文本中的实体名词三大类:实体类、时间类和数字类七小类:人名、机构名、地名、时间、日期、货币和百分比关键词提取、关系抽取、信息抽取、依存分析、词嵌入应用:文本机器翻译、文本摘要、情感分析;知识图谱、问答系统、聊天机器人自然语言处理背景:如何表示词语所包含的语义?怎么用词语表示文本,让机器读懂?向量空间模型(词袋模型):1元素词出现为0,不出现为12元素为出现次数3元素为ti-idf数值WordEmbedding(词嵌入)核心思想:此本无义,义由境生:语义相关的词语,具有相似的上下文环境,例如,苹果和梨子具有相似的上下文语境。怎么得到词向量:训练语料库,将每个词语训练成词向量。总结:语言的表示(词向量)Bags-of-word:维度高、过于稀疏、缺乏语义、模型简单WordEmbedding:维度低、更为稠密、包含语义、训练复杂自然语言处理实践基于gensim包和中文维基语料gensim,word2vec模型介绍:/gensim/models/(语料库):链接https://pan./s/1qXKIPp6密码kade##训练模型sentences=LineSentence('')model=Word2Vec(sentences,size=128,window=5,min_count=5,workers=4)#('word_embedding_128')#加载模型model=("word_embedding_128")#使用模型items=(u'中国')#得到与中国相似的词语(上下文语境相似)(u'学校',u'学生')#得到学校和学生2个向量的相似度自然语言处理用Python做自然语言处理必知的八个工具./article/1048041434?utm_campaign=share&utm_medium=androidShare&utm_u=1030448961&utm_source=weixinMoment自然语言处理加州大学洛杉矶分校UCLA在IN-N-OUT吃饱喝足后便开往很近的UCLA。我的点评:来到LA,还是要来看看世界名校UCLA的。找到了学校里的visitor parking停车场停车。一个小时USD3。不算贵。 7出来走不远就可以看到熊的雕塑和UCLA的一家很大的礼品店。此外,我们还主要参观了UCLA的Student 对面的图书馆(Chicano Studies Research Center Library)。Royce Hall还是挺漂亮的,图书馆也是学习环境很好的地方。顺利降落JFK,回到纽约,行程顺利结束。洛杉矶。加州。自然语言处理分词词性标注自然语言处理命名实体

自然语言处理 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小478 KB
  • 时间2019-10-21