下载此文档

Parzen窗估计与KN近邻估计实验报告..doc


文档分类:行业资料 | 页数:约12页 举报非法文档有奖
1/12
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/12 下载此文档
文档列表 文档介绍
模式识别实验报告题目: Parzen 窗估计与 KN 近邻估计学院计算机科学与技术专业x xxxxxxxxxxxxxxx 学号 xxxxxxxxxxxx 姓名x xxx 指导教师 x xxx 20 xx年 xx月 xx日 Parzen 窗估计与 KN 近邻估计装订线一、实验目的本实验的目的是学习 Parzen 窗估计和 k 最近邻估计方法。在之前的模式识别研究中, 我们假设概率密度函数的参数形式已知, 即判别函数 J(.) 的参数是已知的。本节使用非参数化的方法来处理任意形式的概率分布而不必事先考虑概率密度的参数形式。在模式识别中有躲在令人感兴趣的非参数化方法, Parzen 窗估计和 k 最近邻估计就是两种经典的估计法。二、实验原理 1. 非参数化概率密度的估计对于未知概率密度函数的估计方法,其核心思想是:一个向量 x 落在区域 R 中的概率可表示为: 其中, P 是概率密度函数 p(x) 的平滑版本,因此可以通过计算 P 来估计概率密度函数 p(x) ,假设 n 个样本 x1,x2, …,xn ,是根据概率密度函数 p(x) 独立同分布的抽取得到,这样, 有k 个样本落在区域 R 中的概率服从以下分布: 其中 k 的期望值为: k 的分布在均值附近有着非常显著的波峰,因此若样本个数 n 足够大时,使用 k/n 作为概率 P 的一个估计将非常准确。假设 p(x) 是连续的,且区域 R 足够小,则有: 如下图所示, 以上公式产生一个特定值的相对概率,当n 趋近于无穷大时, 曲线的形状逼近一个δ函数,该函数即是真实的概率。公式中的 V 是区域 R 所包含的体积。综上所述, 可以得到关于概率密度函数 p(x) 的估计为: 在实际中,为了估计 x 处的概率密度函数,需要构造包含点 x 的区域 R1,R2, …,Rn 。第一个区域使用 1 个样本, 第二个区域使用 2 个样本, 以此类推。记 Vn 为 Rn 的体积。 kn为落在区间 Rn 中的样本个数,而 pn (x) 表示为对 p(x) 的第 n 次估计: 欲满足 pn(x) 收敛: pn(x) → p(x) ,需要满足以下三个条件: 有两种经常采用的获得这种区域序列的途径, 如下图所示。其中“ Parzen 窗方法”就是根据某一个确定的体积函数, 比如 Vn=1/ √n 来逐渐收缩一个给定的初始区间。这就要求随机变量 kn和 kn/n 能够保证 pn (x) 能收敛到 p(x) 。第二种“ k- 近邻法”则是先确定 kn为n 的某个函数,如 kn= √n 。这样,体积需要逐渐生长,直到最后能包含进 x的 kn 个相邻点。 窗估计法已知测试样本数据 x1,x2, …,xn , 在不利用有关数据分布的先验知识, 对数据分布不附加任何假定的前提下, 假设 R 是以 x 为中心的超立方体,h 为这个超立方体的边长, 对于二维情况,方形中有面积 V=h^2 ,在三维情况中立方体体积 V=h^3 ,如下图所示。根据以下公式,表示 x 是否落入超立方体区域中: 估计它的概率分布: 其中 n 为样本数量, h 为选择的窗的长度, φ(.) 为核函数,通常采用矩形窗和高斯窗。 最近邻估计在 Parzen 算法中, 窗函数的选择往往是个需要权衡的问题, k- 最近邻算法提供了一种解决方法, 是一种非常经典的非参数估计法。基本思路是: 已知训练样本数据 x1,x2, …,xn 而估计 p(x) , 以点 x 为中心, 不断扩大体积 Vn , 直到区域内包含 k 个样本点为止, 其中 k是关于 n 的某一个特定函数,这些样本被称为点 x的k 个最近邻点。当涉及到邻点时, 通常需要计算观测点间的距离或其他的相似性度量, 这些度量能够根据自变量得出。这里我们选用最常见的距离度量方法:欧几里德距离。最简单的情况是当 k=1 的情况, 这时我们发现观测点就是最近的( 最近邻)。一个显著的事实是: 这是简单的、直观的、有力的分类方法, 尤其当我们的训练集中观测点的数目 n 很大的时候。可以证明,k 最近邻估计的误分概率不高于当知道每个类的精确概率密度函数时误分概率的两倍。三、实验基本步骤第一部分,对表格中的数据,进行 Parzen 窗估计和设计分类器,本实验的窗函数为一个球形的高斯函数,如下: 1) 编写程序, 使用 Parzen 窗估计方法对一个任意的测试样本点 x 进行分类。对分类器的训练则使用表格 3 中的三维数据。同时,令 h =1 ,分类样本点为(,,) , (,,-) , (-,,-) 进行实验。 2) 可以改变 h 的值,不同的 h 将导致不同的概率密度曲线,如下图所示。 h= 时: h= 时: h=

Parzen窗估计与KN近邻估计实验报告. 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数12
  • 收藏数0 收藏
  • 顶次数0
  • 上传人分享精品
  • 文件大小0 KB
  • 时间2016-03-24