机器学习_降维算法什么是降维?降维就是这样一个过程,在降低数据集维度的同时,保证其中包含的主要信息是相似的(就是保证有效信息不要丢失)。降维技术最典型的应用就是在机器学习问题中,进行有效的特征选择,以此获得更好的分类、回归效果。延迟符号为什么要降维?延迟符号降维?在机器学习中,如果特征值(也可称之为维度,或feature)过多,会引发维度灾难。维度灾难最直接的后果就是过拟合现象,进而导致分类识别的错误,因此我们需要对所提的特征进行降维处理。图基本模式识别过程降维后数据应该包含更多的信息?降维后会损失多少信息?降维后对分类识别效果有多大影响?问题降维的好处(1)进行数据压缩,减少数据存储所需空间以及计算所需时间。(2)消除数据间的冗余,以简化数据,提高计算效率。(3)去除噪声,提高模型性能。(4)改善数据的可理解性,提高学习算法的精度。(5)将数据维度减少到2维或者3维,进行可视化。延迟符号延迟符号Contents降维方法0102特征选择FeatureSelection选择有效的特征子集,即去掉不相关或冗余的特征。特征选择后留下的特征值的数值在选择前后没有变化。也就是说,特征选择后的特征是原来特征的一个子集。特征抽取是指改变原有的特征空间,并将其映射到一个新的特征空间。也就是说,特征抽取后的新特征是原来特征的一个映射。特征抽取FeatureExtraction*降维算法可以根据所采用策略的不同而进行不同的分类降维算法分类延迟符号延迟符号主成分分析(PCA)ponentanalysis的缩写,即主成分分析。此方法目标是找到数据中最主要的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭露出隐藏在复杂数据背后的简单结构。主成分分析就是试图在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化。这些综合指标就称为主成分,也就是说,对高维变量空间进行降维处理,从线性代数角度来看,PCA目标是找到一组新正交基去重新描述得到的数据空间,这个维度就是主元。向量的表示及基变换A(3,2)延迟符号去中心化现在问题来了:如果我们必须使用一维来表示这些数据,又希望尽量保留原始的信息,你要如何选择?例题:延迟符号下面是三维空间中的一组数据,很明显,数据的分布让我们很容易就能看出来主成分的轴(简称主轴)的大致方向。下面的问题就是如何通过数学计算找出主轴的方向。来看这张图:延迟符号
机器学习降维算法课件 来自淘豆网m.daumloan.com转载请标明出处.