下载此文档

不良文本变体关键词识别的词汇串相似度计算.pdf


文档分类:论文 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
第 32 卷第 3 期 计算机应用与软件 Vol32 2015 年 3 月 Computer Applications and Software (复旦大学计算机科学技术学院上海 200433)收稿日期:2013 -09 -12。国家自然科学基金项目(61073170)。李少卿,硕士生,主研领域:内容安全,多模式匹配。吴承荣,副教授。曾剑平,讲师。钟亦平,教授。摘要 随着网络技术的发展,网络空间出现了各种各样的文本交流类网络应用,如聊天室、BBS 等。为维护网络环境的文明,这些网络应用中会将用户发表的“脏话”词汇进行过滤。有些恶意用户为了避免所发信息被系统过滤,经常会将“脏话”词汇进行变形处理,如何识别这些变形后的“脏话”词汇,是一个重要的问题。通过计算变异敏感词汇相似度,来对变形词汇进行识别。该方法具有如下特点:(1)计算结果接近于人脑识别的结果;(2)计算所用的时间复杂度较低;(3)对变体识别率较高。根据计算的相似度值,来决定是否对该疑似敏感词进行过滤。实验数据表明,所提出的相似度计算方法好于现有的算法。关键词 变体关键词字符串相似度算法编辑距离内容过滤中图分类号 文献标识码 A DOI: / STRING SIMILARITY CALCULATION FOR RECOGNISING KEYWORDSOF COINED PROFANITIESLi Shaoqing Wu Chengrong Zeng Jianping Zhong Yiping(School puter Science,Fudan University,Shanghai 200433,China)Abstract With the development of technology,there are work applications of munication,such as chatrooms,BBS and so order to maintain the healthy development work environment,many applications usually filter the profanitiesposted by avoid being filtered,some of malicious users often disguise these profanities in their information to recognisethese disguised profanities is an important this paper we present an algorithm to recognise these disguised profanities putingthe string similarity of aberrant sensitive algorithm has the following features:(1)the scor

不良文本变体关键词识别的词汇串相似度计算 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1243595614
  • 文件大小0 KB
  • 时间2015-11-19