本科生毕业论文(设计)册
学院:
数学与信息科学学院
专业:
计算机科学与技术
班级:
2009级计算机班
学生:
指导教师:
河北师范大学本科毕业论文(设计)任务书
论文(设计)题目: 数据挖掘K-均值算法实现
学院: 数学与信息科学学院专业: 计算机科学与技术班级: 2009级计算机班
学生姓名: 学号: 2009010915 指导教师: 职称: 副教授
1、论文(设计)研究目标及主要任务
本文主要研究聚类分析K-均值算法,并对该算法的优缺点进行分析,并通过该算法的缺点通过实验验证,这些敏感的因素对聚类结果具有哪些影响。本文的主要任务是实现K-均值算法,并通过改变不同的初始条件得出算法聚类结果,并对结果进行比对,得出结论。
2、论文(设计)的主要内容
本文主要介绍了聚类分析,包括它各个方面的性能指标测量函数和常见的聚类方法,着重介绍了基于划分的聚类算法中的K-均值算法,详细分析了该算法的基本思想,算法流程和算法本身的特点,并通过实验实现了该算法,在实现该算法的基础上,对影响聚类结果的两方面因素初始点和数据输入顺序的不同分别进行实验。
3、论文(设计)的基础条件及研究路线
本文是在C++的基础上实现的K-均值算法,数据集是从数据堂下载的c-fat500-,在运行实现该算法的基础上,改变初始点和数据输入顺序,进行了六次试验,分别进行实验这两个初始条件的不同会对聚类结果有哪些影响。
4、主要参考文献
[1] T and efficient data clustering method for very ACM-SlGMOD of Data,Montreal。Canada,June 1996:.
[2]Sambasivam S,Theodosopoulos data clustering methods ofmining web in Informing Science and Information Technology,2006,8(3):.
[3] to the K-means algorithm for clustering large data sets with categorical Mining and Knowledge discovery,1998,(2):283-304.
Applied Math,1999,90:3—26.
5、计划进度
阶段
起止日期
1
确定题目
2012年12月——2013年01月
2
查阅资料
2013年01月——2013年02月
3
论文撰写
2013年02月——2013年04月
4
论文修改
2013年04月——2013年05月
5
论文答辩
2013年05月
指导教师: 年月日
教研室主任: 年月日
河北师范大学本科生毕业论文(设计)开题报告书
数学与信息科学学院计算机科学与技术专业 2013 届
学生
姓名
论文(设计)题目
数据挖掘K-均值算法实现
指导
教师
专业
职称
副教授
所属教研室
软件
研究方向
数据库
课题论证:本文主要是实现K-均值算法,在实现K-均值算法的基础上,对影响聚类结果的初始值选取问题和数据输入顺序的不同,分别通过实验进行验证,并从实验结果得出一般选取数据集开始的几个连续数作为初始中心,有助于提高聚类结果的迭代次数,适当的改变数据的输入顺序也可以改变聚类结果和迭代次数的结论,这些结论可以为我们改变聚类效率提供参考。
方案设计:本文主要是用C++语言实现K-均值算法,在实现的基础上,并改变初始簇中心点和数据集的输入顺序的方式,分别实现出不同的结果,并对这些聚类结果进行分析,得出本文需要验证的结论。
进度计划:
:2012年12月——2013年01月;
:2013年01月——2013年02月;
:2013年02月——2013年04月;
:2013年04月——2013年05月;
:2013年05月
指导教师意见:
指导教师签名: 年月日
教研室意见:
教研室主任签名: 年月日
河北师范大学本科生毕业论文(设计)文献综述
目前,国内对于数据挖掘聚类分析的研究的集中部门还是科研单位和各大高校,国内还没有公司企业专门
数据挖掘K-均值算法实现 来自淘豆网m.daumloan.com转载请标明出处.