下载此文档

文本挖掘算法总结.doc


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
.
.
文本数据挖掘算法应用小结
1、基于概率统计的贝叶斯分类2、ID3 决策树分类
3、基于粗糙集理论Rough Set确实定型知识挖掘
4、基于k-means聚类
5、无限细分的模糊聚类Fuzzy Clustering6、S,可转而使用概率型"贝叶斯分类〞进展计算。
4、基于k-means聚类
算法概述:给定一个包括n条记录、每条记录有m个属性 的样本集,再给出分类数k,要求将样本集中的记录,按记录间的相似性大小〔或距离远近〕,将相似性最大〔或距离最近〕的记录划分到k个类中,一样分类中记录间的距离要尽可能地小,而分类之间的距离要尽可能地大。
BIC改良了常规的k-means聚类算法,在聚类过程中,同时计算分类质量〔类均差 、类间均距和〕,并求解最优聚类max{}。
解决问题:将n条记录聚成k个分类。对n个样本集记录,指定分类个数k,为k个分类指定初始迭代记录为k个分类中心,通过计算其他记录对k个分类中心的距离,对不断变换分类、变换类中心,收敛都当分类不再变化时,计算完毕。由此,将n个样本集记录分配到k个分类中,得到k个分类中心指标。
5、无限细分的模糊聚类Fuzzy Clustering
算法概述:在实际解决聚类问题时,很多数事物是"模糊〞的,其特征属性A无法确进展量化,如:人的相貌、人与人之间的关系、人的性格、购置商品的意愿等,这就需要用模糊数学来进展相似性计算。模糊数学是伴随着上世纪五六十年代兴起的控制论、信息论、系统论〔俗称"老三论〞〕而形成的一种决策方法,是美国加利福尼亚大学伯克利分校Lotfi Zadeh教授于1965年创立的。
模糊聚类根本计算步骤为:
〔1〕将样本集中的n条记录变换成n x n的模糊相似矩阵;
〔2〕通过传递包卷积计算将模糊相似矩阵变换成等价相似矩阵;
〔3〕最后通过λ截矩阵将n条记录分成1-n个分类。
K-means聚类需事先确定聚类数k,而模糊聚类Fuzzy Clustering无需事先确定聚类数k,可以从最小的k=1〔所有学录为1个分类〕,到k=n〔所有学录各为1个分类〕。
解决问题:将n条记录聚成1-n个分类。模糊聚类Fuzzy Clustering算法完全基于数据自然状况进展聚类,可产生聚类的解集合(k=1,2,,,,,n),因此,可以在解集合中求解最优聚类max{
.
.
},这对观察分析样本集的数据性态非常有用,可供观察不同情况下的"聚类〞状况。
6、SOM神经元网络聚类
算法概述:人类对事物的认知是一个不断积累的过程,通过对事物的观察,不断地认识和修正因果关系,最后逐渐稳定为认知规那么。医学证明,人眼的视网膜、脊髓和海马中存一种侧抑制现象,即,当一个神经细胞兴奋后,会对其周围的神经细胞产生抑制作用。这种侧抑制使神经细胞之间呈现出竞争,开场时可能多个细胞同时兴奋,但一个兴奋程度最强的神经细胞对周围神经细胞的抑制作用也最强,其结果使其周围神经细胞兴奋程度减弱,从而该神经细胞是这次竞争的"胜者〞,其它神经细胞在竞争中失败。
1981年芬兰学者kohonen提出一个称为自组织特征映射〔Self Organization Feature Map-SOM或SOFM〕网络,前述大脑神经细胞兴奋规律等,在该网络中都得到了反响。在竞争层神经元之

文本挖掘算法总结 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sdnmy78
  • 文件大小72 KB
  • 时间2022-06-09