文本挖掘算法总结
文本数据挖掘算法应用小结
1、基于概率统计的贝叶斯分类
2、ID3 决策树分类
3、基于粗糙集理论Rough Set的确定型知识挖掘
4、基于k-means聚类
5、无限细分的模糊聚类Fuy Clustering无需事先确定聚类数k,可以从最小的k=1(所有学录为1个分类),到k=n(所有学录各为1个分类)。
解决问题:将n条记录聚成1-n个分类。模糊聚类Fuzzy Clustering算法完全基于数据自然状况进行聚类,可产生聚类的解集合 (k=1,2,,,,,n),因此,可以在解集合中求解最优聚类max{ },这对观察分析样本集的数据性态非常有用,可供观察不同情况下的“聚类”状况。
6、SOM神经元网络聚类
算法概述:人类对事物的认知是一个不断积累的过程,通过对事物的观察,不断地认识和修正因果关系,最后逐渐稳定为认知规则。医学证明,人眼的视网膜、脊髓和海马中存一种侧抑制现象,即,当一个神经细胞兴奋后,会对其周围的神经细胞产生抑制作用。这种侧抑制使神经细胞之间呈现出竞争,开始时可能多个细胞同时兴奋,但一个兴奋程度最强的神经细胞对周围神经细胞的抑制作用也最强,其结果使其周围神经细胞兴奋程度减弱,从而该神经细胞是这次竞争的“胜者”,其它神经细胞在竞争中失败。
1981年芬兰学者kohonen提出一个称为自组织特征映射(Self Organization Feature Map-SOM或SOFM)网络,前述大脑神经细胞兴奋规律等,在该网络中都得到了反应。在竞争层神经元之间的连线,它们是模拟生物神经网络层内神经元相互抑制现象的权值,这类抑制性权值满足一定的分布关系,如距离近的抑制强,距离远的抑制弱。
通过上述可知,SOM聚类算法设计的核心思想是体现神经元在认知过程中的3个特性:
(1)根据样本比较,逐步积累、不断修正、渐近稳定特性?
(2)神经元之间的侧抑由近到远、逐步衰弱制特性?
(3)神经元兴奋区域随认知次数逐步缩小范围特性?
BIC采用欧氏距离作为输入模式Xi与各输出神经元Wj之间的相似度,选择具有最小距离的神经元为兴奋神经元;采用(1-ti/tm)作为学习衰减函数,其中ti 为当前学习次数(第几次样本训练),tm 为总的学习数,以此来体现上述特性“1”; 采用(1-ti/T)、C/Wij作为神经元侧抑制函数,其中C为设定的常数、Wij为被选中的神经元与其他神经元最远距离,来体现上述特性“2”、“3”。
解决问题:将n条记录按m个输出神经元聚成m个分类。模仿人类的学习方法,对事物的认识是一个由浅入深、逐步学习、修正的过程,将对各种要素组态的认识逐步稳定到认知领域,由此进行
“聚类”。
7、基于Meaning的文本相似度计算
算法概述:给出一组n个文档D{ },BIC为每个文档计算出一组最具有代表性的词组,同时,计算出相互间内容接近度及接近序列。
BIC的Meaning挖掘与自动搜索不同于现有Baidu、Google人工输入关键词的搜索方式,现有搜索引擎不考虑语义和语境,只考虑词W与文档D的包含关系 和词在文档内的频数TF,因此,关键词的搜索与文档内容无关。
例如:“姚明”是中国篮球的骄傲,但“姚明”还投身于公益事业,如果在搜索引擎中输入“姚明”,不见得搜索的文档内容只包含与篮球相关的内容,还可能包括公益及其他包含“姚明”的文档,可见,关键词搜索具有不确定性。如果在搜索引擎输入一组词 {“姚明”、“得分”、“篮板”},搜出文档是篮球比赛内容的概率更大,显然 , 形成的交集缩小了搜索范围,但组词 {
“姚明”、“得分”、“篮板”}是经过人思考给出的。
BIC通过计算得出文档代表词组,相当于人工输入 {“姚明”、“得分”、“篮板”},同时计算词 在句子中语序关系的发生概率与马尔科夫链,因此,能够更好地确定搜索词的语义和语境,通过对文档间的相关性(接近度)进行聚类计算,可按Meaning“接近度”进行自动搜索而无需人工干预,并随文档内容的变化而自动跟踪Meaning变化,使搜索更加准确、更加自动化,让搜索“随用户的心而动”。
BIC可用于基于Meaning计算的搜索、舆情分析、特定情报分析、垂直搜索和相似内容推荐等文本挖掘。
解决问题:计算两个文本的相似度。
8、文本模糊聚类计算
算法概述:基于模糊聚类算法,BIC首先计算将n个文本组成相似矩阵 (第i个文本文档对第j个文本文档的相似度),然后将相似矩阵 变成模糊相似矩阵 ,通过求模糊相似矩阵 的等价矩阵和截矩阵,将n个文本文档分成1-n个分类,同时,按相同分类中的文本具有最接近的内容相似度Min{
},不同文本分类间具有最大差异Max
文本挖掘算法总结 来自淘豆网m.daumloan.com转载请标明出处.