下载此文档

手把手教你分析携程网评论数据.doc


文档分类:IT计算机 | 页数:约13页 举报非法文档有奖
1/13
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/13 下载此文档
文档列表 文档介绍
手把手教你分析携程网评论数据中文文本挖掘包tm、、Rwordseg、Rweibo的安装http://blog./andy_henry/article/details/25929019文本分析的应用越来越广泛,这不,我的工作也开始涉及了文本分析,今天就讲讲关于评论数据的那点事。首先评论数据如何获取?一般通过网络爬虫的方式抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的评论,在同事的协助下,成功爬取该酒店的评论数据,于是我开始使用这些数据做相关的分析。本次文本分析中需要使用如下3个包:1)Rwordseg包用于分词2)用于词频统计3)wordcloud用于绘制文字云library(Rwordseg)library()library(wordcloud)#读取数据Evaluation<-(file=(),encoding='UFT-8')#剔除评论数据中含有的英文和数字text<-gsub('[a-zA-Z0-9]','',Evaluation$Evaluation)#分词segword<-(strwords=text)#查看第一条评论的分词效果segword[1]从上图的结果中发现,经分割后的词中有许多无意义的停止词,如“是”,“只”,“了”,“也”等,这些词是需要剔除的。关于停止词,可以到网上搜索获取。#读取停止词mystopwords<-(file=(),stringsAsFactors=FALSE)head(mystopwords)class(mystopwords)由于读入的数据为数据框格式,需要将其转换为向量格式,即:mystopwords<-(mystopwords[,1])head(mystopwords)现在有了停止词词库,接下来需要将分割后的词与停止词词库进行比对,将含有停止词的词进行剔除。下面是自定义删除停止词的函数:removewords<-function(target_words,stop_words){target_words=target_words[target_words%in%stop_words==FALSE]return(target_words)}#将该函数应用到已分割的词中segword2<-sapply(X=segword,FUN=removewords,mystopwords)#查看已删除后的分词结果segword2[[1]]从上图中显示,一些无意义的停止词已经被剔除,下面就使用比较干净的词绘制文字云,以大致查看分词效果。word_freq<-getWordFreq(string=unlist(segword2))opar<-par(=TRUE)par(bg='black')#绘制出现频率最高的前50个词wordcloud(words=word_freq$Word,freq=word_freq$Freq,=50,=TRUE,colors=rainbow(n=7))par(opar)发现“不错”这个词非常明显,但到底是什么不错呢?下面来看一看都是哪些评论包含不错这样的字眼。#根据频繁出现词汇,还原初始评价index<-NULLfor(iin1:length(segword)){ if(any(segword[[i]]%in%'不错')==TRUE) index=unique(c(index,i))} text[index]含有“不错”字眼的评论有658条,这就需要人为干涉,将这些“不错”进行简化并组成词典。这是一个非常繁工的过程,需要耐心的查看这些评论中都是怎么表达的情感的。经过约3个小时的人为选词(不断反复查看),将这些词组成词典,并导入为自定义词汇。(可能该方法比较笨拙,如有更好的方法,还请看官指导)。#自定义词汇words<-c('房间干净','服务不错','酒店不错','不错的酒店','不错的地方','卫生不错','设施不错','设备不错','硬件不错','位置不错','地段不错','景色不错','景观不错','环境不错','风景不错','视野不错','夜景不错','口味不错','味道不错','感觉不错','态度不错','态度冷漠','态度冷淡','服务差劲','热情','热心','不热情','态度好','态度差','态度不好','素质差','质量不错','房间不错','浴缸不错','早餐不错','早餐质量差','自助餐不错','下午茶不错','强烈推荐','推荐入住','值得推荐','性价比不错','隔音不错','体验不错','不错的体验','设施陈旧','五星级酒店','性价比不错','交通便利','交通

手把手教你分析携程网评论数据 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数13
  • 收藏数0 收藏
  • 顶次数0
  • 上传人cjl201702
  • 文件大小3.51 MB
  • 时间2019-10-16