贝叶斯分类器设计:
需要已知先验概率P(ωi)和条件概率密度p(x/ωi),或者后验概概率 P(ωi /x)
第3章概率密度函数的估计
研究如何用已知训练样本估计P(ωi),p(x/ωi), 即解决p(x/ωi) 、 P(ωi)未知问题
分类器训练的主要任务是确定类概密函数p(x/ωi)
如果P(ωi)未知,只知道p(x/ωi)还可用N-P准则和最大最小准则分类。
任务:利用有限的样本集去设计分类器,即:
1)利用样本集估计p(x/wi)和P(wi),得到估计值
和
2)利用、代替贝叶斯决策中的p(x/wi)和
P(wi),完成分类器设计
希望:当样本数N时,
收敛于p(x/wi) 、P(wi)
三个要解决的主要问题:
1)如何利用样本集估计
2)估计量的性质如何(希望无偏估计)
3)利用样本集进行错误率估计
基本方法:
1)监督参数估计:
样本所属类别及类条件总体概率密度函数的形式已知,未知的是表征概率密度函数的某些参数;
例:正态分布,未知参数,2 ,∴称为监督下的参数估计
3)监督非参数估计:
2)非监督参数估计:
已知总体概率密度函数形式,但未知样本所属类别,要求推断概率密度函数的某些参数;
以上都是已知p(x/wi)的函数形式
已知样本所属类别,但未知p(x/wi)形式,直接推断概密函数
参数估计中的几个基本概念
(1)统计量
由样本按某种规律构造的某种函数
或:设样本xk(k=1,…,n)都含有总体信息,为估计未知参数,把有用信息抽取出来构造样本的某函数,即为统计量。
例:对正态分布,其统计量
(2)参数空间:
在统计学中,把未知参数的全部可取值的集合称参数空间,记为
(3)点估计、估计量和估计值
构造一个统计量d(x1,…,xN)作为某未知参数的估计,这种估计称为点估计
在统计学中, 称为的估计量。
将属于wi的样本
得到第i类的的具体数值,称为的估计值。
代入统计量d,
这种构造统计量得到参数估计量的过程,称为点估计问题。
(4)区间估计:
估计某个区间(d1, d2)作为未知参数的可能取值范围,估计的区间(d1, d2)称为置信区间,这类估计称为区间估计。
即在一定置信度条件下估计某一未知参数的取值范围,称为置信区间,这类估计称为区间估计。
有效的参数估计方法主要有:
最大似然估计
贝叶斯估计
最大似然估计:一种常用、有效的方法
把待估参数看作确定性的量,最佳估计就是使训练样本的概率为最大的那个值。
两种方法的结果很接近,但本质有很大差别
即:使似然函数达到最大的参数值作为估计值。
其中参数是确定的未知量(非随机)
概率密度函数的估计 来自淘豆网m.daumloan.com转载请标明出处.