单 位 代 码
学 号
分 类 号
级 公开
渎 吁 、 署
碩 士 学 位 丈
基于近邻传播算法 的 中 文 文 本聚类 的 研究
学 院 : 电 子 工 程 学 院
专 业 : 电 路 与 系 统
研 究 方 向 : 数 据 挖 掘
年 级 : 级
研 究 生 : 汤 明 达
指 导 教 师 : 罗 晓 曙 教 授
完 成 日 期 : 年 月
基 于 近邻传播算 法 的 中 文文本聚类 的 研 究
专 业名 称 : 电 路与 系 统
申 请 人 : 汤 明 达
指 导教师 : 罗 晓 曙 教授
论文答辩委 员 会
摘 要
基于近邻 传播算 法 的 中 文文本聚类 的研究
研 究生 : 汤 明 达 导 师 : 罗 晓曙 教授
专业 : 电 路与 系 统 研 究方 向 : 数据 挖掘 年级 : 级
摘 要
随着信 息 技术 的 飞速 发展 , 知 识量 急 剧增长 , 数据挖 掘技术 提供 了 一种从海 量数据 中
寻 找所 需 信息 的 有效 理论 。 数据挖掘 中 数据 的 形 式是 多 样 的 , 本文主要 是针对 以 中 文 为信
息 载 体 的 文 本 , 对 中 文 形 式 的 数据 进 行挖 掘 , 利 用 近邻 传 播 算 法 (
后 文简 称 算法 ) 及其相 关改进 , 实现 文 本集的 聚类 。 本 研究设 计分为 两 大
部 分 , 第 一部分主 要是对 中 文 文 本的 处理工 作 ; 第 二部分 主要 是对 聚类算 法 算 法进
行研 究 , 然后对算法 做 出 改进 、 更新 , 最后应用 到 中 文 文 本挖掘 中 。
由 于 中 文 字符 的 编码特性 , 中 文 词 语无空 格标 识 、 难切 分 , 以 及 中 文 语义 导 致切分 产
生歧义 、 无法 识别 未登 录词 等诸 多 问 题 , 故在挖掘 需 对数据进行预 处理 。 本 文选用 中 科
院 提供 的 软 件接 口 实现分词 。 分词后通 过编 程实 现对文本 数据 的 处理 , 计算 特
征 向 量 、 特征矩 阵 、 相似度矩 阵 。 最后 , 将处理 结果写 入相关 文件 中 。
本文 选取 算法 作为 聚类 核心 算法 来实 现聚 类 。 第一 , 首先 与 进 行对 比 试
验 , 观察 算法聚类 性 能 , 然后 对 算 法做 出 改 进 。 第 二 , 改变
基于近邻传播算法的中文文本聚类的研究 来自淘豆网m.daumloan.com转载请标明出处.