统计推断
从数据得到对现实世界的结论的过程
估计
总体它代表我们所关心的那部分现实世界。而在利用样本中的信息来对总体进行推断之前人们一般对代表总体的变量假定了分布族。比如假定人们的身高属于正态分布族;对抽样调查假定了二项分布族等等。这些模型基本上是根据经验来假定的,所以仅仅是对现实世界的一个近似。在假定了总体分布族之后,进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的分布;由于分布族成员是由参数确定的,如果参数能够估计,对总体的具体分布就知道得差不多了。
估计
一种是点估计(point estimation),也就是用估计量的实现值来近似相应的总体参数。
另一种是区间估计(interval estimation);它是包括估计量在内(有时是以估计量为中心)的一个区间;该区间被认为很可能包含总体参数。
点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不象点估计那么绝对。
无偏估计(大样本性质)
区间估计的置信度(大样本性质)
估计
注意置信区间的论述是由区间和置信度两部分组成。有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),并不说明置信度,也不给出被调查的人数,这是不负责的表现。因为降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌。如果给出被调查的人数,则内行可以由推算出置信度(由后面给出的公式),反之亦然。
一个描述性例子
一个有10000个人回答的调查显示,同意某种观点的人的比例为70%(有7000人同意),可以算出总体中同意该观点的比例的95%置信区间为(,);另一个调查声称有70%的比例反对该种观点,还说总体中反对该观点的置信区间也是(,)。到底相信谁呢?实际上,第二个调查隐瞒了置信度(等价于隐瞒了样本量)。如果第二个调查仅仅调查了50个人,有35个人反对该观点。根据后面的公式可以算出,第二个调查的置信区间的置信度仅有11%。
假设检验
在假设检验中,一般要设立一个原假设;而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾,从而否定这个假设。在多数统计教科书中(除了理论探讨之外)的假设检验都是以否定原假设为目标。
如果否定不了,那就说明证据不足,无法否定原假设。但这不能说明原假设正确。很多教科书在这个问题上不适当地用“接受原假设”的说法,犯了明显的低级逻辑错误。
假设检验的过程和逻辑
首先要提出一个原假设,比如某正态总体的均值等于5(m=5)。这种原假设也称为零假设(null hypothesis),记为H0。
与此同时必须提出对立假设,比如总体均值大于5(m>5)。对立假设又称为备选
'98全国有线电视综合信息网学术研讨会论文集 (9) 来自淘豆网m.daumloan.com转载请标明出处.