.
文本数据挖掘算法应用小结
1、基于概率统计的贝叶斯分类
2、ID3决策树分类
3、基于粗糙集理论RoughSet确实定型知识挖掘
4、基于k-means聚类
5、无限细分的模糊聚类
个人属于“高〞、“富〞、“帅〞,条件为:“身高〞、“财富〞、“薪水性收入〞、“财产性收入〞、“产业收入〞、“脸型〞、“眼睛大小〞、“鼻梁形状〞、“英俊〞等条件来鉴识,经过
“粗糙集〞分类计算,得出最小分类规那么可能是
“IF财富>=XXX1and身高>=185cmand相貌=英俊〞
其他条件可以忽略不计,这就是“最小分类规那么〞。
“粗糙集〞分类规那么为“百分之百确定型〞分类规那么,这是对样本集的统计结果,如果
出现非“样本集〞中出现过的条件变量属性,将无法得出“粗糙集〞,可转而使用概率型“贝
叶斯分类〞进行计算。
4、基于k-means聚类
算法归纳:给定一个包括n条记录、每条记录有m个属性的样本集,再给出分类数k,要
求将样本集中的记录,按记录间的相似性大小〔或距离远近〕,将相似性最大〔或距离最近〕
的记录划分到k个类中,相同分类中记录间的距离要尽可能地小,而分类之间的距离要尽可
能地大。
实用文档.
.
BIC改良了老例的k-means聚类算法,在聚类过程中,同时计算分类质量〔类内均差、类
间均距
和
〕,并求解最优聚类max{
}。
解决问题:将n条记录聚成k个分类。对n个样本集记录,指定分类个数
k,为k个分类指
定初始迭代记录为
k个分类中心,经过计算其他记录对k个分类中心的距离,对不断变换分
类、变换类中心,收敛都当分类不再变化时,计算结束。由此,将
n个样本集记录分配到k
个分类中,获得
k个分类中心指标。
5、无限细分的模糊聚类
FuzzyClustering
算法归纳:在实际解决聚类问题时,很多数事物是“模糊〞的,其特点属性
A无法确进行
量化,如:人的相貌、人与人之间的关系、人的性格、购置商品的意愿等,这就需要用模糊
数学来进行相似性计算。
模糊数学是陪同着上世纪五六十年代流行的控制论、
信息论、系统
论〔俗称“老三论〞〕而形成的一种决策方法,
是美国加利福尼亚大学伯克利分校LotfiZadeh
教授于
1965年创立的。
模糊聚类根本计算步骤为:
1〕将样本集中的n条记录变换成nxn的模糊相似矩阵;
2〕经过传达包卷积计算将模糊相似矩阵变换成等价相似矩阵;
3〕最后经过λ截矩阵将n条记录分成1-n个分类。
K-means聚类需预先确定聚类数k,而模糊聚类FuzzyClustering无需预先确定聚类数k,可
以从最小的k=1〔所有学录为1个分类〕,到k=n〔所有学
录各为1个分类〕。
解决问题:将n条记录聚成1-n个分类。模糊聚类FuzzyClustering算法完全基于数据自然
状况进行聚类,可产生聚类的解会集(k=1,2,,,,,n),因此,可以在解会集中求解最优聚类
文本挖掘算法总结 来自淘豆网m.daumloan.com转载请标明出处.