文本分类和聚类中若干问题的研究摘要文本分类和聚类是文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本分类和聚类作为获取和组织大量文本数据的关键技术,可以在很大程度上解决信息杂乱和信息爆炸的问题。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。随着信息化时代的到来,文本分类和聚类的重要性日趋显著,其研究工作已经不仅仅是科学家的兴趣所在,世界上许多国家和地区的政府及工业界都十分关注并积极投身于文本分类和聚类领域的研究。本文针对文本分类和聚类中亟需解决的海量应用、分类精度以及理解深度等问题,开展了以下创新性研究:第一,探讨了基于统计模型的文本分类。主要研究了传统的统计模型方法在文本分类领域中的应用。首先,研究了基于贝叶斯方法的文本分类技术。在此基础上,利用加权的方法提出了一种改进的贝叶斯算法。其次,研究了如何利用无标签样本进行学习的问题。通过采用转导推理,整合了无标签样本和有标签样本的学习。最后,探讨了字符级统计方法在文本分类中的应用。此外,通过把垃圾邮件过滤和短信分类任务的解决贯穿始终,将这一部分的研究内容在其上逐一实现。实验结果表明,本文的方法不仅易于工程实现,能够联合无标签样本学习,而且可以较好地在分类速度和精度之间进行折衷,以达到快速准确处理海量文本信息的能力。第二,探讨了基于分类器集成的文本分类。主要研究了基于简单多数投票策略的分类器集成问题。首先,给出了一个分类器错误的分解式分解诶砺壑っ鞯幕∩希岢隽艘桓瞿芄恢甘痉掷器集成性能的指标借由线性规划方法,分析了基于简单多数投票策略的分类器集成性能的理论上下界。最后,探讨了可能达到集成性能理论上界的两种途径:选择性分类器集成;基于副暧呕的分类器集成。此外,我们将这部分所研究的方法应用于垃圾邮件过滤任务。实验结果表明,本文的方法能够很好地提高集成后文本分类
知识水坝***@pologoogle为您整理
器的精度,具有良好的应用前景。第三,探讨了基于非线性方法的文本聚类。我们期望能够将传统的文本聚类处理提升到“理解”的层次。将文本聚类处理领域的研究,从长期专注于“语法”层次的研究,演进到“语义”的层次。首先,通过使用流形学习工具,研究了中文词汇在语义空间掷嗫占的分布情况,这部分研究将为迸一步基于语义的特征选择工作打下良好的基础。在此基础上,利用实浣辛硕绦啪劾嗟难芯俊J笛榻果表明,本文的方法能够更好地反映文本之间的内在联系。关键词:文本分类和聚类统计模型分类器集成流形学习圾邮件过滤短信处理垃Ⅱ
知识水坝***@pologoogle为您整理
锄畂姗】韙甀Ⅱ’.赳‰鷖嬲鷇印膍痳鱫锄甜氏甌艄甅痶。锄协姗协鷜っ髄锄,猘..Ⅵ厅..Ⅳ.,斌;鹳鮅瓵瑆“,,;騨瑃珊
砌誗鷉锄劬咖懈啦鶬,研簂鯿緄瞮私蟚锄璫甌锄锄丘猤由鱝羔秂賁:鷇鷐够鷐瓸鹤,辧‘‘’鷗眈雒弛璐瓵膖’印’∞丘.“张∞∞鰐印:;船曲甒懈騦∞鲫、∞,.,仃斌琫纳。靶虹,瑆癶琣.ⅡⅣ
日期:—:边日期:选骸叮阂襋创新性声明关于论文使用授权的说明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。,本人承担一切相关责任。学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它本学位论文不属于保密范围。适用本授权书。本人签名:导师签名:口期:复制手段保存、汇编学位论文。
第一章绪论引言国人一向激赏“以文载道,以文立人”的处世哲学。曹丕‘典论·论文骸案俏如今,随着“的迅猛发展和日益普及,一方面使得人们可以更加方便快捷源,不能充分掌握它、利用它,无论是对个人还是对整个社会,都会造成巨大的些信息,并快速、准确、全面地从中找到用户所需要的信息是当前文本信息处理支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地的问题,而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。虽然文本分类和聚类章,经国之大业,不朽之盛事。”孔子;“言之无文,行之不远”
文本分类和聚类中若干问题的研究(可复制论文) 来自淘豆网m.daumloan.com转载请标明出处.