第三章近红外光谱分析中建模方法多元线性回归(MLR),主成分回归(PCR)和偏最小二乘回归(PLSR)在近红外光谱数据的校准中是三个常用的多元方法。事实上,这三种方法有一个共同点就是使用线性最小二乘拟合技术。这意味着他们建立线性模型在一个独立的(光谱数据)和一个独立的(因变量)之间,然后运用最小二乘拟合结束估计回归效果。当变量数量较少时,以上几种线性方法建模效果会大大不如非线性建模方法,支持向量机(SVM)是一种核方法,以结构风险降到最小为原理的一种建模方法,在非线性回归的问题上占有独特的地位。(MLR)若自变量的数量为个,(),因变量为,在与之间,我们可以建立一个线性模型,即()()()在式中,是回归系数。在式()~()中是仅有一个试样的线性模型,若有个试样,即为()它的列向量的数值是,作为回归系数与原来完全相同,矢量作为矩阵的行,则:()在这种情况下,是试样数,是自变量数。有以下三种情况:(1),在试样数小于变量数的情况下,通过与对比,则有无穷多个解。(2),在试样数与变量数相等的情况下,若矩阵满秩时,则矢量有唯一解。但这种极特殊情况在日常生活遇见的机会几乎为零。此时我们有:()(3),试样数大于变量数,尽管我们解不出准确解,但是使残差矢量尽最大可能小而得到解:()这就是我们所熟知的最小二乘法。其解为:()在上面的叙述中,因变量为1个,而事实上可以有很多个因变量。如有两个因变量和,我们可以把它们写成两个线性方程:()若用矩阵表示,则:由此得到最小二乘的解为:()当用多元线性回归时,没有一个持续的解决办法当变量比样品多时随着无穷多解存在,这最终导致系统出现弱点。另一种情况,当样品比变量多时,导致一个过渡确定的系统,这使系统没有一个准确的解决方法。因为多元线性回归有很多缺点,这就促使了主成分回归法(PCR)的出现。(PCR)对于多元校正可以知道的不同回归方法中,基本分析方法包括部分偏最小二乘回归,主成分回归已经在化学计量学里得到关注。为了避免共线性问题,PCR通过减少不重要的主成分而减少系统内现存的噪音从而解决这个问题。主成分回归通过准确的潜在变量可直接用于不理想的数据。主成分回归被广泛的用于对数据已在非独立的或预测变量里有大量协方差的回归模型。代替回归到原始测量变量光谱的测量系统的浓度,PCR实现了光谱数据的分解在将浓度信息回归成主成分数。通过主成分的分析表明:原变量矩阵能够表示为主成分矩阵,而由是本征矢量上投影所得。矩阵与主成分的本征矢量一一对应,即。设矩阵的阶为,若的阶与相等,则多元线性回归与主成分回归所得结果完全相同,这使主成分回归好的地方不能显示。主成分数一定会比小很多,去掉贡献小的变量,主要是因为这些去掉的变量大部分都是噪声,选择之后建模预测结果比较好,也比较稳定。综上所述,可由T来表示:()由此可得线性方程:()其解为:()部分偏最小二乘与主成分回归和多元线性回归有关。PCR的目的是在回归到浓度变量之前找到在数据里捕获更多的方差的因素。而多元线性回归是寻找单一的元素及换人数据与浓度有关的因素。PLS尝试最大化协方差,这样把误差和关联数据联系到一起,当PLS搜索到两个矩阵最吻合的空间因素是,它的预测远远优于PCR。3
中国知网查重结果 来自淘豆网m.daumloan.com转载请标明出处.