登录
|
注册
|
QQ账号登录
|
常见问题
联系我们:
我要上传
首页
浏览
幼儿/小学教育
中学教育
高等教育
研究生考试
外语学习
资格/认证考试
论文
IT计算机
经济/贸易/财会
管理/人力资源
建筑/环境
汽车/机械/制造
研究报告
办公文档
生活休闲
金融/股票/期货
法律/法学
通信/电子
医学/心理学
行业资料
文学/艺术/军事/历史
我的淘豆
我要上传
帮助中心
复制
下载此文档
毕业设计论文-基于相似度的文本聚类方法研究.docx
文档分类:
论文
|
页数:约26页
举报非法文档有奖
分享到:
1
/
26
下载此文档
搜索
下载此文档
关闭预览
下载提示
1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档,不会出现我们的网址水印。
同意并开始全文预览
(约 1-6 秒)
下载文档到电脑,查找使用更方便
下 载
还剩?页未读,
继续阅读
分享到:
1
/
26
下载此文档
文档列表
文档介绍
毕业设计论文-基于相似度的文本聚类方法研究.docx
毕业设计论文-基于相似度的文本聚类方法研究.docx完整毕业论文
本科毕业设计
论文题目:基于相似度的文本聚类方法研究
专 业:
计算机科学与技术
班级学号: 姓 名:
指导教师:
教师职称:
协助指导/联系教师:
教师职称:
摘要
随着计算机的广泛应用和Internet的普及,人们所面对的信息量急剧增长。信息量的增 加给人们带来方便,可同时也带来了一个信息过量的问题。面对浩如烟海、纷繁芜杂的信息, 人们越来越希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或企业管 理。
在现实世界中,文本是信息最重要的载体,事实上,研究表明信息有80%包含在文本文 档中。面对大量无序的文本数据,为了便于工作的展开,人们经常遇到的一个问题就是,如 何对文本进行分类、比较,评估文本的相关性和重要性,以及发现众多文本的模式与趋势。 采用文本分类可以实现对人量文本的自动分类。文本分类是在分析文本内容的基础上将多篇 文本分成一个或多个类别。财经类网页是我们日常生活屮关注的主要内容。本文以财经类文 本的聚类实现为研究实例,提岀基于文本相似度向量的聚类方法。
关键词:相似度,聚类,财经
摘要 2
一、绪论 3
1问题的提出 3
4
7
二、系统开发工具和开发平台 8
1面向对彖语言 8
2 关于 VC++ 6. 0 11
1编辑器方面的新特性 11
、 编译器、连接器和调试器方面的改进 12
13
13
13
三、 系统分析 13
1文本建模方法 13
2文本聚类算法分析 14
15
15
16
16
17
四、 系统设计与实现 17
17
2界面设计 17
3网页自动获取的实现 18
20
五、 系统测试 21
1测试 21
23
结论 24
致谢 25
参考文献 26
一、绪论
1. 1问题的提出
当今是一个信息爆炸的时代,特别是随着Internet的飞速发展,各
行业都已经在网络上找到了自己的位置,人们越来越有可能通过网络 来获得最新的咨询信息,网络已成为继报纸、电视之后的第3种媒体, 网络改变了我们的生活,电子信息化给人们的阅读带来了革命性的改 变。我们每个人都有通过阅读获得信息的习惯,特别是一些对咨询信 息需求比较紧迫的个人和企业,更加是需要每天通过大量的阅读来寻 找和补充自己需要的信息。但是,网上信息之多已经大大超过来我们 的每天日常的阅读能力,因此为了给人们提供辅助阅读的工具,文本 分类技术的研究已经成为解决该问题的重要捷径之一。特别的是在信 息检索领域文本分类和自动摘要技术的发展更是不可缺少。
人们面对浩瀚的信息海洋,从大规模文本中快速获取所需要信息 的要求,,这 些文档中只有极少数对用户来说是有用的•对这些文档若是采用顺序 组织的方法, 作为一种文档组织方法可以帮助人们从搜索引擎返回的文档中快速 户查找到所需要信息的速度,如对文档进行随机聚类相对于顺序组织 方法来说根本不会提高速度,相反还会降低•所以,提高文本聚类 的有效性一直是文本聚类领域的研究者追求的目标之一
随着互联网的出现,大量的文本信息如潮水般不断涌现,网络已 经成为一个庞大而杂乱无章的桌面图书馆。对海量的文献人们迫切需 要能够自动实现文本的分类处理,在节省时间的同时更好的定位查找 自己需要的文献。有效的信息检索需要有良好的索引和文本内容概 括,文本聚类便是解决这类问题的一种手段。
文本聚类就是将一个训练文献集分成若干称为聚类簇(cluster) 的子集,每个聚类簇中的成员之间具有较大的相似性,而聚类簇之间 的文本具有较小的相似性。文本分类一般是通过统计方法或知识工程 方法来实现的。知识工程方法需要编制大量的推理规则,因此其开发 费用相当昂贵。相比之下,统计方法由于其简单的机制,为大多数实 用文本分类系统所采用。在基于统计的各种分类方法中,它们的共同 点是从文本中提取词汇信息,并以特征向量的形式来表示文本。基于 以向量来表示的文本,聚类算法有很多种,本文是通过在特征向量中 选取代表点来完成聚类的。在日常生活、生产、科研、工作中,经常 要对被研究的对象分类。研究和
毕业设计论文-基于相似度的文本聚类方法研究 来自淘豆网m.daumloan.com转载请标明出处.
猜你喜欢
2025年高一数学必修一第二章对数运算练习及答..
3页
2025年青蓝工程学期师傅总结
3页
2025年鄂教版三年级上册语文期末考试试题
5页
2025年部编版三年级语文下册期末试卷及答案
6页
2025年虹口区初中物理二模试卷
6页
2025年第五篇薪酬管理案例分析题及答案
12页
2025年福建省龙岩市质检数学卷及答案
9页
2025年电机检验标准
4页
2025年生理学试题及答案第六章-消化与吸收
9页
2025年物业管理服务心理学试题
5页
2025年溶液的形成练习题
4页
2025年浅谈我国的对外直接投资
2页
2025年法语水平考试法语公共四级语法题
3页
有趣的数字游戏
30页
2025年机械制图期中试卷含答案
5页
相关文档
更多>>
非法内容举报中心
文档信息
页数
:
26
收藏数
:
0
收藏
顶次数
:
0
顶
上传人
:
小雄
文件大小
:
164 KB
时间
:
2021-02-21
相关标签
文本相似度算法
设计类毕业论文
毕业论文研究方案
研究类论文
研究生毕业论文
毕业论文的研究方法怎么写
毕业设计研究方案
毕业论文研究方法怎么写
研究生毕业设计
本科毕业设计论文
期刊/会议论文
开题报告
经济论文
管理论文
社科论文
文学论文
医学论文
哲学论文
艺术论文
法律论文
自然科学论文
通讯论文
论文指导/设计
毕业论文
最近更新
论文不足之处
2025年简单的统计图教学设计(合集16篇)
2021年快乐的暑假作文300字
2025年简单生活为题的优秀高中日记600字(合..
2025年人教版小学语文二下第1次月考一二单元..
2025年人教版小学四年级数学下册第五单元单..
本科毕业论文撰写的内容与要求内容
2025年等待春天550字七年级作文(整理18篇)..
2021中考病句专项练习(姜玥)
2025年二年级数角图形
2025年二年级数学下册期中测试题
2025年物质的密度教学反思篇
公司职员第二季度工作计划
15班-013-李英-第13课
公司搬迁工作计划安排公司搬迁计划方案
2025年物业公司文员工作总结模板
学术论文中参考文献的著录格式与顺序
2025年九年级数学相似三角形单元测试题及答..
公司客服工作计划范例
2025年主语从句教学设计
2025年第一次作文600字初中(共28篇)
2025年云南省高等职业技术教育招生考试农林..
全民所有制企业改制方案
接受工伤调查委托书
车辆运输安全防范措施
七年级历史下册期中考试试卷(含答案)
手术科室医疗质量检查表
办事处租房管理规定
危岩稳定性计算表格-滑移式-倾倒式-坠落式-..
网络工程原理与实践教程图文
在线
客服
微信
客服
意见
反馈
手机
查看
返回
顶部