“自然语言处理”实验报告专业:智能科学与技术班级:1501学号:0918150102姓名:宋晓婷日期:2018/4/16目录实验1 31、实验目的: 32、实验原理和内容: 33、实验环境和编程语言: 34、主要功能及实现: 35、实验结论 8实验2中文分词 81、实验目的和内容 82、实验原理 93、实验平台及语言 104、主要功能及实现 115、实验结论 13实验三中文文本分类 131、小组成员以及分工 132、实验目的和内容 133、实验原理以及数据处理 144、实验平台和语言 165、实验结果 166、实验结论 16四、实验1-3代码 17实验11、实验目的:本实验学习如何在利用NLTK进行分词\词性分析与句法分析,。通过次实验项目的练习,增强学生对课堂理论知识的理解,帮助学生以知识获取与自主实践相结合,学习对英文自然语言信息的处理的实践。2、实验原理和内容:NLTK自然语言处理工具包,里面包含了许多处理自然语言的库可以直接调用,本实验利用NLTK对obama。txt语料库进行对应的分词和词频统计,再对布朗语料库进行词性和句法分析。3、实验环境和编程语言:windows下anaconda3spyder()4、主要功能及实现:(),在自己的语料库中找出responsibility,education和working出现的频率及其他们词干出现的频率。(使用nltk的英文分词函数tokenize和stem)。①,调用nltk里面的word_tokenize()函数,先把文档进行分词,再调用nltk中的FreDist()函数进行词频统计。统计responsibility,education和working出现的频率。结果见表一。②提取词干的时候,NLTK中提供了三种最常用的词干提取器接口,即 Porterstemmer,LancasterStemmer和SnowballStemmer。统计词干频率时,先对全文提取词干(whole_stems),然后在提取的词干中统计三者词干出现的频率,结果见表二。表一原词以及对应词干频率统计responsibility(respons)education(educ)working(work)原词出现频率8112词干出现频率91112(全文总词数:3066全文总词干数:3066),找到以下答案:?(只考虑常规的复数形式,-s后缀形式的)。①先查看布朗语料库里面包含的类别(如图一)图一布朗语料库包含类别②选取其中一个类别的语料库adventure,提取里面的所有NNS标注的复数词放入word_double;提取NN标注而非NNS标注的单数词放入word_single;然后对这两个词表提取词干,比较两个词干表里面相同的词干,同时去除里面重复出现的词干,然后再在复数词表里面找出这些词。可得常以复数不以单数出现的词有:(其他目录),计数包含wh的词:此处我查找新闻(news)类别里面包含wh的词,结果如图二图二布朗语料库新闻类别中包含wh的词wheat:1wherever:1whip:2whipped:2wholesale:1whichever:1whisking:1why:14wheeled:2wholly-owned:1whims:1where:59whiplash:1which:245whereby:3white:57wheels:1who:268wheel:4whites:2when:169whatever:2whose:22white-clad:1while:55wholly:1whether:18what:95whopping:1whole:11whom:8whirling:1whiz:、输出brown文本集名词后面接的词性,结果如图三图三brown文本集名词后面接的词性由统计可知:名词后面出现频率最高的是ADP(介词和后置词)第二是标点第三是动词依次是名词、连接词、副词、限定词、PRT、形容
自然语言处理实验报告材料 来自淘豆网m.daumloan.com转载请标明出处.