燕山大学
硕士学位论文
密度核估计中核函数的迭代算法及对最优窗宽的研究
姓名:王金然
申请学位级别:硕士
专业:运筹学与控制论
指导教师:宋向东
20051001
摘要密度核估计是解决统计问题中样本分布密度函数的一类非参数统计方法,在经济金融等领域有着重要的应用价值,而对于密度核估计重点在于研究它的算法使其估计值更加精确,据此本论文主要研究了以下几方面的内容:首先,介绍了密度核估计的基本知识以及核函数的研究概况,并综述了密度核估计的基本大样本性质,重点讨论了多元变量密度众数的估计,利用概率与测度的方法研究了多元变量密度众数的存在性和唯一性,并对若干命题和结论进行了证明。其次,研究了最优核函数的选择问题,对四类常用的核函数群恕余弦核、高斯核和三角核诠潭ㄑ救萘肯赂巢煌问岛腿〔煌翱值分别进行统计模拟计算,利用语言编程作图和表格数据分析得出了每一类核函数所对应的最优窗宽值,然后通过四种核函数在各自最优窗宽下的图形比较和最小均方误差档谋冉系贸隽俗钣藕撕S弦核函数这一结论。再次,提出了一种用迭代思想进行密度核估计的新方法,并对原有的密度核估计方法与此新方法进行统计模拟比较,得出了迭代后的值相对估计值都具有较好的拟合程度这一结论,充分验证了迭代过程的可行性与优越性:然后给出了窗宽与样本容量之间关系的统计模拟结果,这也为更有效的进行密度核估计的迭代运算提供了依据。关键词密度核估计;窗宽;样本容量;均方误差;拟合度;迭代算法
、.燕山人学理学硕士学位论文’痟篽畃..瑆.,,,甎.,,—,瓵琓,瑃,.
;;;,.,籉;Ⅱ
第滦髀课题背景概率密度函数是概率统计中最重要的概念之一。密度估计问题就是要通过从总体中抽样得样本对密度函数进行估计。如果密度函数形状被假定或已知,那么就用参数估计法。如果密度函数的形状未知,则用非参数估计法5话悴灰G竺芏群心持痔囟ǖ氖问剑缑芏任!篎态或伽玛植恐唷@碛珊苊飨裕裘芏群氖问揭阎#包含少量未知参数,则不如径直考虑这些参数的估计问题,而不提密度估计问题。因此,密度估计问题在本质上应该说是非参数性的。如今最熟悉和最流行的非参数密度估计法是密度核估计法,也称为密度估计法非参数统计是数理统计学的一个分支,它形成于本世纪年代,在第二次世界大战以后得到迅速发展,至今已经成长为一个体系庞大、理论精深且富于实用价值的分支,受到数理统计学者和应用工作者的广泛重视。密度核估计作为一种非参数统计方法,在近余年来吸引了不少学术界的注意,研究发现核估计方法并非建立在某种艰深的概念或数学工具的基础上,而不过是古老的直方图方法的自然发展。这在统计发展史上有一定的代表性。最近几年,特别是随着数据库的广泛应用和数据挖掘技术的兴起,概率密度估计又有了许多新的应用领域。比如,作为大型数据库查询近似结果能力的度量和分析工具,用于各种分类和模式识别设计等领域;在可靠性统计、生存分析领域研究概率密度的核估计也是很重要的,这不仅在于它本身的地位更重要的是研究失效率蚍缦章等估计往往需要利用核估计来研究概率密度函数;另外,它也是当前计量经济学研究的一个重要方向。现实中,经济变量之间的关系未必是线性关系或可线性化的非线性关系,而变量之间的参数非线性关系又很难确定,传统线性或非线性计量经济模型在实际应用中往往存在模型设定误差,不能满足经济和管理应用~。
‘旱娑槌感┮来估计,当浞中∈保畆,/山票硎境在区间【口,上即疈欢可以用于/。若有盖的简单样本琗:,⋯,#堍簟捎密度核估计的兴起与发展襻:躨≤胛,口,茎赳籥彝:躨≤胛,躾,茎/堍魋/—出并发展了一类很重要的密度估计一核估计。核估计法的优点是直观且便研究的需要,而借助于密度核估计就能较好的解决这个问题。很早时期,由于概率和数学工具都有限,当遇到统计问题时,只有从直观的角度提出处理方法:以频率估计概率,以直方图估计密度,所以直方椒ǔ晌R恢肿畛S玫拿芏裙兰品椒āV狈酵脊兰品ň褪牵随机变量缬忻芏萬騲取值在区间【吼上的概率躕来估计,其中表示集合一所包含的元素个数。因此之值,这样就得到了的一个估计。基于此原理,直方图估计法可具体描述如下:选择一个适当的正数吃,把全直线分成若干长为允的区间,任取这些区间之一,记为訶∈』,则的估计可定义为直方图估计法的优点在于简单易行,我们将利用这一优点来模拟方差的密度函数。在洗蠖菪砣そ闲〉那榭鱿拢猛枷裆心芟允久芏群的基本特征,但也有明显的缺点,它不是连续的,且从统计的角度看效率较低。为了改进直方图估计法,于年和于年提燕山大学理学硕十学位论文
胁,ハ睰咩,肛。珐喜阈面坪肴省出齨窆隌×”×·ぃ以得到保证,即≥琁。,实际上有在—#琗ァ康闹枚杂Φ模的简单算术平均值,称参数吃为窗宽,吃由核估计的定义可知,正扔胙敬笮有关,又与核函数“于理论分析及有许多优良性质等等,它已经成为密度估
密度核估计中核函数迭代算法与对最优窗宽及研究 来自淘豆网m.daumloan.com转载请标明出处.