支持向量机
( Support Vector Machine,SVM)
理论基础
线性判别函数和判别面
非线性判别函数
使用松弛变量处理 Outlier方法
理论基础
SVM的理论基础
传统的统计模式识别方法只有在样本趋向无穷大时,其性能才有理论的保证。统计学习理论(STL)研究有限样本情况下的机器学习问题,SVM的理论基础就是统计学习理论。
传统的统计模式识别方法在进行机器学习时,强调经验风险最小化。而单纯的经验风险最小化会产生“过学习问题”,其推广或泛化能力较差。
风险:模式学习本质上是一种对问题真实模型的逼近,但毫无疑问,真实模型一定是不知道的,既然真实模型不知道,那么我们选择的假设(分类器)与问题真实解之间究竟有多大差距,我们就没法得知。这个假设与问题真实解之间的误差,就叫做风险。
经验风险:我们选择了一个假设之后,真实误差无从得知,但我们可以使用分类器在样本数据上的分类结果与真实结果之间的差值来表示。这个差值叫做经验风险。
结构风险
—训练样本的经验风险
—置信风险(同置信水平,样本数量和VC维有关)
其中,n是样本数,h是学习机器的VC维。
经验风险代表了分类器在给定训练样本上的误差,置信风险代表了在多大程度上可以信任分类器在未知样本上分类的结果。
在训练样本有限的情况下,学习机器的VC维越高,则置信风险就越大,导致实际风险与经验风险之间可能的差就越大。
根据统计学习理论,学习机器的实际风险由经验风险和置信风险两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小化,没有最小化置信风险,因此其推广能力较差。
Vapnik 提出的支持向量机(SVM)以训练误差作为优化问题的约束条件,以置信风险最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。
形成时期在1992—1995年。
SVM是一种基于统计学习理论的机器学习方法,它是由Boser,Guyon, Vapnik在COLT-92中首次提出,从此迅速发展起来
Vapnik V N. 1995. The Nature of Statistical Learning Theory. Springer-Verlag, New York
Vapnik V N. 1998. Statistical Learning Theory. Wiley-Interscience Publication, John Wiley&Sons, Inc
目前已经在许多智能信息获取与处理领域都取得了成功的应用。
Hello,
I’m Vapnik!
线性判别函数和
判别面
一个线性判别函数(discriminant function)是指由x的各个分量的线性组合而成的函数:
两类情况:
如果g(x)>0,则判定x属于C1;
如果g(x)<0,则判定x属于C2;
如果g(x)=0,则可以将x任意
分到某一类或者拒绝判定。
线性判别函数和判别面
支持向量机—模式识别 来自淘豆网m.daumloan.com转载请标明出处.