基于词频统计的中文分词的研究费洪晓康松林朱小娟谢文彪(中南大学信息科学与工程学院,长沙4&%#)"":5326)7896<=>$?>$<@/::;摘要论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。这个系统选用了三种统计原理分别进行统计:互信息,元统计模型和测试。文中还对这三种A./原理的处理结果进行了比较,以分析各种统计原理的统计特点,以及各自所适合的应用场合。关键词中文分词词频统计互信息元统计模型A测试/.文章编号&B&(#)%C%文献标识码D中图分类号EFG""!/,,/!"""/""/"!,,#$%&%+%%$..#$%&%12&%$"()*,-/(0/)"/*(!’+./.#&.#1."%3)%45%$16(7."%’()*3%#8($,9#/(:/$,+($,;#$<"5=#/(>5/$=#%’%$?#/((******@9*12A6*@<6@<2@?5@+******@16@+J*))+*******@A12)*>******@6L1=6AM,J72@+=724&%#)3I:::::::I:""@?&.)/1.:E7:N2N:******@A1*?><:=A7:?:=6+***@2@?63N):3:***@A2A6*@*9J76@:=:O*1?=:+3:***@A2A6*@=M=A:3,O76<76=P2=:?*@,,=A2A6=A6<A7:91:Q>:@<M*9A7:O*1?$E71*>+7A76==M=A:3<****@A6@>*>=<7212<A:1P>@<******@N>A<******@P:=:+3:***@A:?2@?A7:@,,A7:<>A2N21AO*1?P>@<7*>AN>A<******@P:+*AA:***@A7:<>A2N21AO*1?P>@<7>=>2))M6=AO*<7212<A:1O*1?P>@<72@?*@:?6<A6****@21M<******@P:+*AA:@$E7:?6<A6****@21M=A*1:=O*1?2@?A7:91:Q>:@<MA72AA7:O*1?2NN:21=******@A7:=:?6=N*=2)A:8A=$E7::,=:+3:***@A2A6*@=M=A:3=:):<A=A71::R6@?=*9=A2A6=A6<=N16@<6N):=A*<*>***@A=:N212A:)MS>A>2)H@*9132A6****@./01232@?A/,A=A$E7N2N1=A6))<*3N21=A71=>)A=*9A7A71R6@?=*9N16@<6N)=******@2)MT=A7?6991@<*9=A2A6=A6<=:::::::::::::::,<7212<A16=A6<=*9A7A71<*>***@A6@+N16@<6N)2@?96?@=2<7=>6A2P)=6A>2A6*@$::::::::,,,,%6A()*&J76@:=:O*1?=:+3:***@A2A6*@=A2A6=A6<A7:91:Q>:@<M*9A7:O*1?3>A>2)6@*1932A6****@0123AA:=A:.//如公式(&)所示:&引言词是最小的能够独立活动的有意义的语言成分,是自然语(,)%"!(,)#!"$)*+(&)!%()%(")!言处理系统中重要的知识载体与基本操作单元。中文分词就是由计算机自动识别文本中词边界的过程,它是中文信息处理最互信息体现了汉字之间结合关系的紧密程度,当紧密程度重要的预处理。然而到目前为止,还没有真正成熟实用的中文高于某一个阈值时,便可认为此字组可能构成了一个词。其中,’&(分词系统面世,这成为严重制约中文信息处理发展的瓶颈之一。%(!,")为汉字串!"联合出现的概率,%(!)为出现汉字串!在此背景下,笔者研究了基于词频统计的中文分词技术的方法的概率,()为汉字串出现的概率,它们在汉字字符串中出%""及原理,设计并实现了一个基于词频统计的中文分词系统。现的次数分别计为()、()、(),是词频总数,则有公&!&"&!"&式():!()()()&&&!"!"(,),(),()()!%!"$%!$%"$词频统计中文分词系统的原理!&&&从形式上看,词是稳定的字的组合,因此在上下文中,相邻互信息反映了汉字串!"间相关的程度。的字同时出现的次数越多,就越有可能构成一个词。因此字与()如果(),即()()(),则间是正&#!""%!"%!%"!"!!字相邻共现的频率或概率能够较好地反应成词的可信度。这就相关的,随着()增加,相关度增加,如果()大于给定的#"#"!!是词频统计的基本原理,这种技术发展至今已经有许多不同的一个阈值,这时可以认为"是一个词;!统计原理。这里就介绍统计的三个原理。()如果(),即()()(),则间是不#%%%!!""!"!"!"""!$&互信息
基于词频统计的中文分词的研究 来自淘豆网m.daumloan.com转载请标明出处.