.核密度估计对于一组关于X和Y观测数据xi,yin,我们假设它们存在如下关系:i1yimxii,通常我们的目的在于估计mx的形式。在样本数量有限的情况下,我们无法准确估计 mx的形式。这时,可以采用非参数方法。在非参数方法中,并不假定也不固定mx的形式,仅假设 mx满足一定的光滑性,函数在每一点的值都由数据决定。显然,由于随机扰动的影响数据有很大的波动,极不光滑。因此要去除干扰使图形光滑。最简单最直接的方法就是取多点平均, 也就是每一点 mx的值都由离 x最近的多个数据点所对应的 y值的平均值得到。显然,如果用来平均的点越多,所得的曲线越光滑。当然,如果用n个数据点来平均,则 mx为常数,这时它最光滑,但失去了大量的信息,拟合的残差也很大。所以说,这就存在了一个平衡的问题, 也就是说,要决定每个数据点在估计mx 的值时要起到的作用问题。 直观上,和x点越近的数据对决定 mx的值所应起越大的作用,这就需要加权平均。 因此,如何选择权函数来光滑及光滑到何种程度即是我们这里所关心的核心问题。一、核密度估计对于数据x1,x2,K,xn,核密度估计的形式为:f?hx1nxxinhiKh1这是一个加权平均,而核函数(kernalfunction)Kg是一个权函数,核函数的形状和值域控制着用来估计fx在点x的值时所用数据点的个数和利用的程度,直观来看,核密度估计的好坏依赖于核函数和带宽h的选取。我们通常考虑的核函数为关于原点对称的且其积分为1,下面四个函数为最为常用的权函数:Uniform:1It12Epanechikov:31t2It14Quartic:151t2It116Gaussian:11t22e2..对于均匀核函数,Kxxi1Ixxi1作密度函数,则只有xxi的绝对值h2hh小于1(或者说离x的距离小于带宽h的点)才用来估计fx的值,不过所有起作用的数据的权重都相同。对于高斯函数,由f?hx的表达式可看出,如果xi离x越近,xxi越接近于零,这h时密度值xxi越大,因为正态密度的值域为整个实轴,所以所有的数据都用来估计hf?hx的值,只不过离x点越近的点对估计的影响越大,当h很小的时侯,只有特别接近x的点才起较大作用,随着h增大,则远一些的点的作用也随之增加。如果使用形如Epanechikov和Quartic核函数,不但有截断(即离x的距离大于带宽h的点则不起作用),并且起作用的数据他们的权重也随着与x的距离增大而变小。一般说来,核函数的选取对和核估计的好坏的影响远小于带宽h的选取。二、带宽的选取带宽值的选择对估计量f?hx的影响很大,如果h太小,那么密度估计偏向于把概率密度分配得太局限于观测数据附近,致使估计密度函数有很多错误的峰值,如果h太大,那么密度估计就把概率密度贡献散得太开,这样会光滑掉f的一些重要特征。所以,要想判断带宽的好坏,必须了解如何评价密度估计量f?hx的性质。通常使用积分均方误差MSEh,作为判断密度估计量好坏的准则。MISEhAMISEho1h4,其中,nhK2xdxh44f''x2AMISEhdxnh4称作渐进均方积分误差。要最小化AMISEh,我们必须把h设在某个中间值,这样可以避免f?hx有过大的偏差(太过光滑)或过大的方差(即过于光滑)。关于h
核密度估计 来自淘豆网m.daumloan.com转载请标明出处.