首先根据样本估计
然后用估计的概率密度设计贝叶斯分类器。
——(基于样本的)两步贝叶斯决策
一种很自然的想法:
希望:
当样本数N →∞时,如此得到的分类器收敛于理论上的最优解。
重要前提:
训练样本的分布能代表样本的真实分布, 条件
有充分的训练样本
本章研究内容:
①如何利用样本集估计概率密度函数?
②估计量的性质如何?
③如何根据样本集估计错误率?
估计概率密度的两种基本方法:
参数方法(parametric methods)
非参数方法(nonparametric methods)
§ 参数估计的基本概念和方法(part1)
参数估计(parametric estimation):
已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。
几个名词:
统计量(statistics):样本的某种函数,用来作为对某参数的估计
参数空间(parametric space):待估计参数的取值空间θ∈Θ
估计量(estimation):
最大似然估计(Maximum Likelihood Estimation)
假设条件:
①参数θ是确定的未知量,(不是随机量)
②各类样本集中的样本都是从密度为的总体中独立抽取出来的,(独立同分布,.)
③具有某种确定的函数形式,只其参数θ未知
④各类样本只包含本类分布的信息
其中,参数θ通常是向量,比如一维正态分布,未知参数可能是
鉴于上述假设,我们可以只考虑一类样本,记已知样本为
似然函数(likelihood function)
——在参数θ下观测到样本集X 的概率(联合分布)密度
基本思想:
如果在参数最大,则应是“最可能”的参数值,它是样本集的函数,记作
称作最大似然估计量。
为了便于分析,还可以定义对数似然函数
上述假设2:样本是独立抽取的
求解:
若似然函数满足连续可微的条件,则最大似然估计量就是方程
的解(必要条件)。
若未知参数不止一个,即,记梯度算子
则最大似然估计量的必要条件由S 个方程组成:
讨论:
如果连续可导,存在最大值,且上述必要条件方程组有唯一解,则其解就是最大似然估计量。(比如多元正态分布)。
如果必要条件有多解,则需从中求似然函数最大者
若不满足连续可导,则无一般性方法,用其它方法求最大(见课本均匀分布例)
最大似然估计示例
以单变量正态分布为例
样本集
似然函数
对数似然函数
最大似然估计量满足方程
而
得方程组
解得
可见,样本的选择是多么重要
§ 参数估计的基本概念和方法(part2)
贝叶斯估计和贝叶斯学习
(一)贝叶斯估计
思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。
思考题:请课后与贝叶斯决策比较
基本思想:
把待估计参数θ看作具有先验分布p(θ) 的随机变量,其取值与样本集X 有关,根据样本集估计θ。
第三章 概率密度估计 来自淘豆网m.daumloan.com转载请标明出处.