1、概率密度函数在分类器设计过程中(尤其是贝叶斯分类器),需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面。但是,在实际应用中,类条件概率密度通常是未知的。那么,当先验概率和类条件概率密度都未知或者其中之一未知的情况下,该如何来进行类别判断呢?其实,只要我们能收集到一定数量的样本,根据统计学的知识,可以从样本集来推断总体概率分布。这种估计方法,通常称之为概率密度估计。它是机器学习的基本问题之一,其目的是根据训练样本来确定x(随机变量总体)的概率分布。密度估计分为参数估计和非参数估计两种。2、参数估计参数估计:根据对问题的一般性认识,假设随机变量服从某种分布(例如,正态分布),分布函数的参数可以通过训练数据来估计。参数估计可以分为监督参数估计和非监督参数估计两种。参数估计当中最常用的两种方法是最大似然估计法和贝叶斯估计法。监督参数估计:样本所属类别及条件总体概率密度的形式已知,表征概率密度的某些参数是未知的。非监督参数估计:已知样本所属的类别,但未知总体概率密度函数的形式,要求推断出概率密度本身。3、非参数估计非参数估计:已知样本所属的类别,但未知总体概率密度函数的形式,要求我们直接推断概率密度函数本身。即,不用模型,只利用训练数据本身来对概率密度做估计。非参数估计常用的有直方图法和核方法两种;其中,核方法又分为Pazen窗法和KN近领法两种。概率密度估计--参数估计与非参数估计我们观测世界,得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,,有了概率密度模型以后,我们就可以统计预测等非常有用的地方,因此,首要任务是找出一些概率分布的概率密度模型。我们来分析一下上面的三个步骤,第一第二都很好解决,关于第三点,我们可以有不同的处理方式如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解了,只是需要确定其中的参数而已,这种情况就是属于参数估计问题。如果我们研究观测的对象,也很难说这些观测的数据符合什么模型,参数估计的方法就失效了,我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。因此,,我们可以利用参数估计的方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是概率分布符合某些模型这个事实。在这个事实上进行加工。一般来说,参数估计中,最大似然方法是最重要和最常用的,我们重点介绍参数估计方法我们在《无基础理解贝叶斯》中已经讲过似然性,那么我们就可以先写出似然函数。假设有N个观测数据,并且概率模型是一个一维的高斯模型,用f(x)表示高斯模型,参数待定,因此我们可以写出似然函数L(x1,x2,...xn)=f(x1,x2,...xn)=f(x1)*f(x2)*......*f(xn),第二个等式用到了样本之间是独立性这个假设(上面提到的一般步骤的第二条)然后把对似然函数取对数logL(x1,x2,...xn)=log(f(x1)*f(x2)*......*f(xn))=log(f(x1))+log(f(x2))+.
概率密度估计 来自淘豆网m.daumloan.com转载请标明出处.