第 32 卷第 3 期 计算机应用与软件 Vol32 2015 年 3 月 Computer Applications and Software (复旦大学计算机科学技术学院上海 200433)收稿日期:2013 -09 -12。国家自然科学基金项目(61073170)。李少卿,硕士生,主研领域:内容安全,多模式匹配。吴承荣,副教授。曾剑平,讲师。钟亦平,教授。摘要 随着网络技术的发展,网络空间出现了各种各样的文本交流类网络应用,如聊天室、BBS 等。为维护网络环境的文明,这些网络应用中会将用户发表的“脏话”词汇进行过滤。有些恶意用户为了避免所发信息被系统过滤,经常会将“脏话”词汇进行变形处理,如何识别这些变形后的“脏话”词汇,是一个重要的问题。通过计算变异敏感词汇相似度,来对变形词汇进行识别。该方法具有如下特点:(1)计算结果接近于人脑识别的结果;(2)计算所用的时间复杂度较低;(3)对变体识别率较高。根据计算的相似度值,来决定是否对该疑似敏感词进行过滤。实验数据表明,所提出的相似度计算方法好于现有的算法。关键词 变体关键词字符串相似度算法编辑距离内容过滤中图分类号 文献标识码 A DOI: / STRING SIMILARITY CALCULATION FOR RECOGNISING KEYWORDSOF COINED PROFANITIESLi Shaoqing Wu Chengrong Zeng Jianping Zhong Yiping(School puter Science,Fudan University,Shanghai 200433,China)Abstract With the development of technology,there are work applications of munication,such as chatrooms,BBS and so order to maintain the healthy development work environment,many applications usually filter the profanitiesposted by avoid being filtered,some of malicious users often disguise these profanities in their information to recognisethese disguised profanities is an important this paper we present an algorithm to recognise these disguised profanities putingthe string similarity of aberrant sensitive algorithm has the following features:(1)the scor
不良文本变体关键词识别的词汇串相似度计算 来自淘豆网m.daumloan.com转载请标明出处.