文本数据挖掘算法应用小结
1基于概率统计的贝叶斯分类
2、ID3决策树分类
3、基于粗糙集理论RoughSet的确定型知识挖掘
4、基于k-means聚类
5、无限细分的模糊聚类FuzzyClustering
6、S0M神经元网于k-means聚类
算法概述:给定一个包括n条记录、每条记录有m个属性的样本集,再给出分类数k,要
求将样本集中的记录,按记录间的相似性大小(或距离远近),将相似性最大(或距离最近)的记录划分到k个类中,相同分类中记录间的距离要尽可能地小,而分类之间的距离要尽可
能地大。
BIC改进了常规的k-means聚类算法,在聚类过程中,同时计算分类质量(类内均差、类
间均距C*和X),并求解最优聚类
解决问题:将n条记录聚成k个分类。对n个样本集记录,指定分类个数k,为k个分类指
定初始迭代记录为k个分类中心,通过计算其他记录对k个分类中心的距离,对不断变换分类、变换类中心,收敛都当分类不再变化时,计算结束。由此,将n个样本集记录分配到k
个分类中,得到k个分类中心指标。
5、无限细分的模糊聚类FuzzyClustering
算法概述:在实际解决聚类问题时,很多数事物是“模糊”的,其特征属性A无法确进行
量化,如:人的相貌、人与人之间的关系、人的性格、购买商品的意愿等,这就需要用模糊数学来进行相似性计算。模糊数学是伴随着上世纪五六十年代兴起的控制论、信息论、系统
论(俗称“老三论”)而形成的一种决策方法,是美国加利福尼亚大学伯克利分校LotfiZadeh教授于1965年创立的。
模糊聚类基本计算步骤为:
将样本集中的n条记录变换成nxn的模糊相似矩阵;
通过传递包卷积计算将模糊相似矩阵变换成等价相似矩阵;
最后通过入截矩阵将n条记录分成1-n个分类。
K-means聚类需事先确定聚类数k,而模糊聚类FuzzyClustering无需事先确定聚类数k,可以从最小的k=1(所有学录为1个分类),到k=n(所有学录各为1个分类)。解决问题:将n条记录聚成1-n个分类。模糊聚类FuzzyClustering算法完全基于数据自然
状况进行聚类,可产生聚类的解集合’(k=1,2,,,,,n),因此,可以在解集合中求解最优聚类max{},这对观察分析样本集的数据性态非常有用,可供观察不同情况下的“聚类”状
况。
6、S0M神经元网络聚类
算法概述:人类对事物的认知是一个不断积累的过程,通过对事物的观察,不断地认识和修
正因果关系,最后逐渐稳定为认知规则。医学证明,人眼的视网膜、脊髓和海马中存一种侧
抑制现象,即,当一个神经细胞兴奋后,会对其周围的神经细胞产生抑制作用。这种侧抑制
使神经细胞之间呈现出竞争,开始时可能多个细胞同时兴奋,但一个兴奋程度最强的神经细胞对周围神经细胞的抑制作用也最强,其结果使其周围神经细胞兴奋程度减弱,从而该神经细胞是这次竞争的“胜者”,其它神经细胞在竞争中失败。
1981年芬兰学者kohonen提出一个称为自组织特征映射(SelfOrganizationFeatureMap-SOM
或SOFM)网络,前述大脑神经细胞兴奋规律等,在该网络中都得到了反应。在竞争层神经元之间的连线,它们是模拟生物神经网络层内神经元相互抑制现象的权值,这
文本挖掘算法总结 来自淘豆网m.daumloan.com转载请标明出处.