基于模糊核学习矢量量化的Sammon非线性映射算法
摘要:提出了一种基于可靠稳定的模糊核学习矢量量化(FKLVQ)聚类的Sammon非线性映射新算法。该方法通过Mercer核,将数据空间映射到高维特征空间,并在此特征空间上进行FKLVQ学习获取数据空间有效且稳定的聚类权矢量,然后在特征空间和输出空间上仅针对各空间的数据样本和它们各自的聚类权矢量进行Sammon非线性核映射。这样既降低了计算的复杂度,又使数据空间和输出空间上数据点与聚类中心间的距离信息保持相似。仿真结果验证了该方法的可靠性和稳定性。
关键词:非线性映射;Sammon投影;距离保持性;计算复杂度;模糊核;学习矢量量化
中图分类号:
文献标识码:A
0引言??
数据降维映射是数据投影、数据挖掘、可视化或聚类分析的基础。然而,当今数据量及其维数的急剧膨胀使得数据降维面临着巨大挑战。由于人眼视觉对二维或三维空间上数据的分布特性有绝佳的分辨能力,所以通过投影将高维空间的数据映射到尽可能保持原空间数据的某种内在关系的低维空间上进行适当的区分和分类是聚类分析的重要途径之一。
Sammon映射就是“几何图像降维”投影法,它通过非线性变换,在低维空间上直观、形象地展现原数据间的结构信息,使得人们能够在低维空间上看到一些高维样本点相互关系的近似图像。但是它存在计算复杂度大,对初值的设定较敏感以及易陷入局部极值等缺点[1]。映射初值的优化设定[2]以及满足AGW条件的线性搜索[3]能较好地解决初值敏感性和局部极值问题。本文重点针对计算复杂度较大的缺点进行讨论。混合FCM聚类的Sammon算法[4]能够较好地解决计算复杂度的问题,它的思想是首先通过模糊C均值(Fuzzy C??Mean, FCM)算法得到各空间的聚类中心,然后在数据空间和输出空间上仅针对各自空间的数据点和它们各自的聚类中心进行Sammon非线性映射,以尽可能地保证两空间数据点的距离相似性,算法对线性可分数据集的映射接近Sammon映射,从而说明算法可行。但是,FCM算法聚类的缺点极易使Sammon映射扭曲低维输出空间的距离信息以及混合FCM??Sammon算法对许多现实数据集表现出较差的可靠性和推广能力。为此,本文提出一种Sammon非线性映射的新方法――基于模糊核学习矢量量化(Fuzzy Kernel Learning Vector Quantization, FKLVQ
)算法,它应用核思想为原数据空间诱导出一类异于欧氏距离度量的新的灵活的距离度量以提高可靠性和推广能力,应用FKLVQ算法以提高聚类中心的有效性和稳定性。??
1模糊核学习矢量量化(FKLVQ)算法??
由于FCM具有聚类中心的随机初始化导致最终迭代结果的不稳定,权重指数的选择直接影响聚类有效性,数据点模糊隶属各类中心的非独立性导致算法对噪声数据非常敏感以及每一步迭代均需对整个数据集进行计算导致较大计算量等等缺点[5],所以混合FCM的Sammon算法[4]处理大容量的多维数据难以取得理想的效果。近年来,Karayiannis和Pai提出的模糊学习矢量量化(FLVQ)[6,7]是基于“winner??take??most”竞争策略的随机梯度学习算法,它在一定程度上克服了FCM算法的缺点,但
基于模糊核学习矢量量化的Sammon非线性映射算法 来自淘豆网m.daumloan.com转载请标明出处.