网易视频云专家分享:漫话中文分词
网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PASS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云与大家分享一下中文分词。
一、背景
美国小伙Tom在中国已经半年了,自认为中文已经不错,就想测试一下自己的水平到底有多高。于是,他收到了下面这样一份试题,请说出以下题目中两句话的区别在哪里:
1、冬天:能穿多少穿多少;夏天:能穿多少穿多少。
2、剩女的原因主要有两个,一个是谁都看不上,另外一个是谁都看不上。
3、单身人的来由:原来是喜欢一个人,现在是喜欢一个人。
4、地铁里一个女孩给男友打电话,”我已经到西直门了,你也出发吧。如果你到了,我还没到,你就等着吧。如果我到了,你还没到,你就等着吧。”
考完试后,老外的眼角是含着泪的,不知道是不是因为他爱这片土地爱得深沉。
看吧,这就是自然语言处理的魅力所在。完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。其中,分词是中文自然语言处理的基础,搜素引擎、文本挖掘、机器翻译、关键词提取、自动摘要生成等等技术都会用到中文分词,可以说分词是自然语言大厦的地基,下面就让我们从它开始谈起。
1)什么是中文分词
中文分词就是将中文语句中的词汇按照使用时的含义切分出来的过程,也就是将一个汉字序列切分成一个个有单独含义的词语。自20世纪80年代以来,中文自动分词就一直是一个研究热点,由于中文语言的复杂性使之一直处于发展阶段。目前,分词主要包含细粒度分词和粗粒度分词两种,在不同的应用场景需要用到不同的粒度。细粒度分词是指将原始语句切分成最基本的词语,而粗粒度分词是指将原始语句中的多个基本词组合起来切成一个词,进而组成语义相对明确的实体。
原始串:浙江大学坐落在西湖旁边
细粒度:浙江/大学/坐落/在/西湖/旁边
粗粒度:浙江大学/坐落/在/西湖/旁边
2)为什么要中文分词
有人会问到:”为什么要进行中文分词呢?”
某人答:”因为搜索引擎要用,所以很重要。”
甚至有人认为:”中国之所以没有进行工业革命,就是因为中文没有自动分词。对于专业书籍来说,完全依靠人进行分词是很慢很困难的,直接影响到了知识的传播。”当然,最后还是要看官方给出的回答。
–词是最小的能够独立活动的有意义的语言成分。
–汉语是以字为基本的书写单位,词语之间没有明显的区分标记。
–正确的分词是中文信息处理的基础与关键。
对于中文而言,词是承载语义的最小单元,由词构成语句,又由语句构成篇章。但是,中文文本是由连续的字序列构成,词与词之间是没有天然的分隔符。在自然语言处理领域,国外已经做出了很多卓有成效的研究,但是那些研究大多基于英文(存在天然的分隔符),也就是说是以正确切分出单词为前提的。于是,NLP对于中文而言要想取得较好的科研成果,就需要准确识别词与词之间的边界,也就是分词。接下来我们就以搜索为例,具体的阐述一下分词的重要性与必要性。大家都知道,目前的搜素引擎是基于一种叫做倒排索引的结构,以什么作为索引的key值,直接影响到整个搜索引擎的准确
网易视频云:漫谈中文分词 来自淘豆网m.daumloan.com转载请标明出处.