统计自然语言处理基本概念张宇
模型
真实世界中
的系统
模型1
Input
Output
模型2
Output1
Output2
如果Output1总是和Ouput接近,Output2总是
和Output偏离,我们就认)
随机变量是一个函数X:R。是样本空间,R是实数集合
人们常常关心和样本点有关的数量指标
数值也比事件更易于处理,举例打靶的环数
举例:
[X=0]={TT};[X=1]={TH,HT} ;[X=2]={HH}
X是两次掷硬币面朝上的次数
数值可以是连续值,也可以是离散值
PX(x)=P(X=x)=dfP(Ax), Ax={a:X(a)=x},通常简写作P(x)
期望Expectation
期望是随机变量的均值
E(X)=x X()xPX(x)(对于离散值)
E(X)=RxP(x)dx(对于连续值)
举例:
六面掷骰子问题:E(X)=
11/6+ 21/6+31/6+41/6+51/6+61/6=
两次六面掷骰子得到的点数和:E(X)=7
21/36+32/36+43/36+……=7
方差(Variance)
E((X-E(X))2)= x X()(x-E(X))2PX(x) (对于离散值)
E((X-E(X))2) =R(x-E(X))2P(x)dx(对于连续值)
王励勤和王皓的期望接近,王励勤的方差大
概率分布
多项式分布(Multinomial Distribution)
P(n1, ,nm)=n!/(n1! nm!)p1n1 pmnm
ini=n,做n次试验
输出第i种结果的次数是ni,第i种结果出现的概率是pi
二项式分布(Binomial Distribution)
输出:0或1
做n次试验
关心的是试验成功的次数的概率
Pb(r|n)=Cnrpr(1-p)n-r
Cnr是从n个元素中任意取出r个元素的组合数
p是成功的概率
如果是等概率分布,则p=1/2,Pb(r|n)=Cnr/2n
协方差和相关系数
协方差(Covariance)
Cxy=E[(X-E(X))(Y-E(Y))]
相关系数(Correlation Coefficient)
xy=Cxy/(xy)
x是随机变量X的方差
y是随机变量Y的方差
-1 1,>0正相关,<0负相关,=0不相关
参数估计Parameter Estimation
参数估计
研究对象的全体所构成的集合成为总体(population)
数理统计的任务:已经知道总体的一部分个体的指标变量值,以此为出发点来推断总体分布的性质
简单样本(simple sample)是指这样的样本(X1,X2,…,Xn),它的分量Xi,i=1,…,n是独立同分布的随机变量(向量)
估计器
设(X1,X2,…,Xn)为一个样本,它的一个与总体分布无关的函数(或向量函数)f(X1,X2,…,Xn)称为一个统计量(statistics)
举例:掷硬币问题
X:面朝上/面朝下
T(X1,X2,…,Xn):面朝上的次数
估计器(Estimator)
根据样本计算参数
一个估计器是随机变量的函数,同时其自身也可以视为一个随机变量
估计器的准确率依赖于采样数据的大小
参数估计
所有参数都是从一个有限的样本集合中估计出来的
一个好的估计器的标准:
无偏(unbias):期望等于真实值
有效(efficient) :方差小
一致(consistent):估计的准确性随样板数量的增加而提高
一些常用的估计方法
极大似然估计
最小二成估计
贝叶斯估计
极大似然估计
极大似然估计
Maximum Likelihood Estimation(MLE)
选择一组参数,使似然函数L()达到最大
L()=f(x1,x2,…,xn|)=i=1,nf(xi|)
举例:
罐里有黑球和白球,比例3:1,今连续抽取两球全为黑球,问罐里黑球多还是白球多?
设黑球概率为p,抽取n次拿到x次黑球的概率符合二项分布:fn(x,p)=Cnxpx(1-p)n-x
今抽取两次全是黑球f2(2,p)=C22p2(1-p)0=p2
若p=1/4,则f2(2,p)=1/16;若p=3/4,则f2(2,p)=9/16
选择概率大的:p=3/4,黑球多
随机过程
随机过程(Stochastic Process)
X(t), tT
X是一组随机变量
T是过程的索引集合,例如时间或位置
如果T是可数集,则X(t)是离散时间过程
举例:词性标注
C(t),C是词性,t是位置
C(1)=noun,
统计自然语言处理基本概念张宇 来自淘豆网m.daumloan.com转载请标明出处.