基于遗传算法的Kmeans初始化EM算法及聚类应用 万方数据
,∥。憾舅苊耍基于遗传算法的猰初始化算法及聚类应用唬—∑口:辉鳌弧芶一ⅡⅡ一瑀山拜·达拉拜,曹红丽,尤努斯·艾沙缓舕】耹·观测数据琗,隐变量数据标签向量集种算法的缺点是估计精度过分依赖于初始值,而且不能估计模型阶数。基于遗传算法的猰初始化算法可以同时在通信和信号处理中,通常将背景噪声看成是高斯噪声,实际上是不准确的,还有看成多模噪声,混合高斯模型是一种比较常用的参数化模型,它可以拟合任何概率密度函数,给出模拟同质性和异质性的一个自然框架和半参数框架。其中,研究最多的就是多元高斯混合模型,它在统计学和模式识别以及数据挖掘中得到应用。算法是基于最大似然估计的一种针对不完全数据的可实现的迭代算法,依赖于初始值,容易陷入局部收敛值。算法可看成一种贪一呐郎剿惴ǎ蔷植克索算法,它不能估计混合高斯模型的模型阶数。遗传算法是一种全局搜索算法,它将遗传算法应用到算法中,并将猰算法用于算法的初始化,在形成基于最小信息编码准则的同时估计模型阶数和参数的混合算法。同时将这种混合算法应用到聚类算法中。算法。从不完整数据估计混合模型的概率密度,这里的不完整数据有两种,一是观测数据不完整,二是引入隐变量使之成为不完整数据。混合高斯模型的概率密度函数,即:式中,;五;肛是第环种У钠谕莇维向量;最是第环种У男讲罹卣螅莇阶对称正定矩阵;悄P偷慕资瑉瑉,≯的标签向量为瑉;,⋯,如果∥的所在族确定了热鏧诘趉族中敲,其谥咀逯校矣衟一琋,,,,完整数据的似然函,其中:,⋯,口。,,,⋯,:设置初始值,由完整数据乃迫缓屠窭日法求,,⋯,弘剑河缮弦徊焦兰频牟问低频家淞恐担陆笱畔⒖蒲в牍こ萄г海陆诼衬酒耍:混合高斯模型能够有效地拟舍概率密度函数,常用的混合高斯概率密度模型参数估计方法是迭代算法,这估计模型阶数和参数。试验结果表明,该算法具有更好的聚类效果。关键词:混合高斯模型;遗传算法;猰;聚类应用算法简述数为,ぃ琘琘:,⋯,叫。一户鮅摘中图分类号:文献标识码:文章编号:———瓻收稿日期:—基金项目:国家自然科学基金资助项目,—,:瓾,—.猰.:籫籏—籧。,。
万方数据
韙一警五,式中:DP徒资粃;丛掣。引,;·釜.:霭≤::≥蕾瓣毫黢筮礲韎屹,一竺:竺土圭生塑:竺鴏州,肛弧狵或邸墨”卜卢叫一丛掣坐∑硼㈣,雕∥В唬,则蜀弧ā呜硼肱稹芪咒为样本个数,达到最大优化。肛;渲衖一,⋯,籮一,⋯,剑河梢淞抗兰撇问担唬而旌纤惴ń樯模型阶数且桓鲋匾2问毖臼亢苄∈保可以利用穷举法寻找最佳模型阶数,当样本数量很大时,穷举法不可能,因此本文提出一种基于遗传算法的混合算法,该算法能自动搜索到最佳模型阶数口嗦搿6杂谀P徒资械谋嗦耄琺是介于最大类别数涞囊桓稣阎っ鳎笔跏蓟秩骸K婊蒔个染色体种群,交叉概率N..,ù问腒初始化算法。跏蓟木咛骞倘缦拢弘,的初始化过程:随机将龉鄄馐葑魑3跏猰聚类中心,再将所有观测数据按照距上一步聚类中心最短距离重新聚类并计算新的聚类中心,直到达到规定的目标函数为止,最后将聚类中心作为肌的初始值。五的初始化过程汗鄄馐軽甶,唬视Χ戎导扑恪Q≡褡钣拍P徒资姆椒ㄍ常是引入一个针对模型阶数的惩罚形式的似然函数,因为似然函数是非降的函数,通常是将似然函数减去一个用来惩罚南睿钚〕ざ让枋龅腗准则的远离使用的惩罚函数比较简单,为:算法流程图如图尽基于混合算法的聚类算法伽如下:输入:数据集瑉
基于遗传算法的Kmeans初始化EM算法及聚类应用 来自淘豆网m.daumloan.com转载请标明出处.