下载此文档

不良文本变体关键词识别的词汇串相似度计算.pdf


文档分类:论文 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
第 32卷第 3期计算机应用与软件 Vol
2015年 puterApplicationsandSoftware
不良文本变体关键词识别的词汇串相似度计算
李少卿吴承荣曾剑平钟亦平
(复旦大学计算机科学技术学院上海 200433)
摘要随着网络技术的发展,网络空间出现了各种各样的文本交流类网络应用,如聊天室、BBS等。为维护网络环境的文明,这
些网络应用中会将用户发表的“脏话”词汇进行过滤。有些恶意用户为了避免所发信息被系统过滤,经常会将“脏话”词汇进行变形
处理,如何识别这些变形后的“脏话”词汇,是一个重要的问题。通过计算变异敏感词汇相似度,来对变形词汇进行识别。该方法具
有如下特点:(1)计算结果接近于人脑识别的结果;(2)计算所用的时间复杂度较低;(3)对变体识别率较高。根据计算的相似度
值,来决定是否对该疑似敏感词进行过滤。实验数据表明,所提出的相似度计算方法好于现有的算法。
关键词变体关键词字符串相似度算法编辑距离内容过滤
中图分类号 文献标识码 A DOI:.1000
ASTRINGSIMILARITYCALCULATIONFORRECOGNISINGKEYWORDS
OFCOINEDPROFANITIES
LiShaoqing WuChengrong ZengJianping ZhongYiping
(puterScience,FudanUniversity,Shanghai200433,China)
Abstract technology,munication,suchaschat
rooms,,manyapplicationsusuallyfiltertheprofanities
,

:(1)thescoreforstringsimilarityofdisguised
profanitiesgivenbythisalgorithmisveryclosetotheonebyhumanbrain;(2)plexity;(3)veryhighidentificationrate

oftheartmetricofstringsimilarityfornewly
coinedpro

不良文本变体关键词识别的词汇串相似度计算 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1017848967
  • 文件大小885 KB
  • 时间2017-08-17