概率密度估计打印
第一页,共96页
引言
进行Bayes决策需要事先知道两种知识:
各类的先验概率;
观测向量的类条件概率密度。
知识的获取(估计):
一些训练数据;
对问题的一般性的认识。
引言
第二页,共96页
引言
类的先验概率的估计(较容易):
依靠经验;
用训练数据中各类出现的频率估计。
用频率估计概率的优点:
无偏性;
相合性;
收敛速度快。
第三页,共96页
类条件概率密度的估计(非常难):
概率密度函数包含了一个随机变量的全部信息
概率密度函数可以是满足下面条件的任何函数
p(x)≥0
引言
第四页,共96页
概率密度估计的两种主要思路:
参数估计:
根据对问题的一般性的认识,假设随机变量服从某种分布,分布函数的参数通过训练数据来估计。
非参数估计:
不用模型,而只利用训练数据本身对概率密度做估计。
引言
第五页,共96页
“Curse of dimensionality” : We need lots of training data to determine the completely unknown statistics for multi-D problems.
A rule of thumb : “use at least 10 times as many training samples per class as the number of features (. D)”
Hence, with some a priori information, it is possible to estimate the parameters of the known distribution by using less number of Samples
参数估计
参数估计
第六页,共96页
最大似然估计把参数看作是确定而未知的。最好的估计值是在获得实际观察样本的概率为最大的条件下得到的。
贝叶斯估计把未知的参数当作具有某种分布的随机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。
参数估计
第七页,共96页
最大似然估计(Maximum Likelihood),需做以下假设:
⒈参数是确定(非随机)而未知的量。
⒉按类别把样本集分开,假定有c个类,则可分成c个样本集X1,X2,…,Xc,其中Xj中的样本都是从概率密度为p(x|ωj)的总体中独立抽取出来的。
参数估计
第八页,共96页
⒊类条件概率密度p(x|ωj)具有某种确定的函数形式,但其参数向量 θj 未知。
⒋假定Xi中的样本不包含关于θj (j≠i)的信息。也就是说不同类别的参数在函数上是独立的。这样就可以分别对每一类进行处理。也就是说Xi中的样本只对θi 提供有关信息,而没有关于θj (j≠i)的任何信息。
参数估计
第九页,共96页
在假设前提下,可以分别处理c个独立的问题。独立地按照概率密度抽取样本集X,用X去估计出未知参数。
已知某一类样本集X包含有N个样本,即
X={x1,x2,…,xN}
参数估计
第十页,共96页
概率密度估计打印 来自淘豆网m.daumloan.com转载请标明出处.