例
O’Brien et al.(1995) 对Philadelphia地区的病人进行抽样,目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。
等概率的抽取样本医院的缺点?
首先,可能医院中愿意接受CPR治疗的病人数量会正比与医院床位的数量,采用等概简单估计量可能会有大的方差。
其次,自加权的等概率样本可能难于管理。可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。
第三,调查成本在调查开始的时候是未知的----一个40个医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。
其他办法?
调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。
如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?
而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。而且,总体总量的方差可能更小。
分层抽样:抽样选择概率小的单位会有较高的权数。
采用不等概率抽样来减少抽样方差而不采用清晰的分层。采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。
抽样的关键是每个样本的选择概率是已知的。
场合:总体单元差异比较大时;
抽样审计;
多阶段的PSU.
入样概率不同是否导致估计偏差?
例如“水野法”抽样使得比估计为无偏估计量
一、不等概抽样的必要性
*提高估计精度
*放回的PPS抽样简化方差计算
应用条件:通常需要知道一个辅助变量,用以确定其入样的概率
类型
放回不等概抽样
不放回不等概抽样
逐个抽取
重抽法
全样本抽取;样本量随机
系统抽样法
(Probability Proportional to Size)
也称PPZ
1代码法案例
累计
代码
1
6
6
1~6
2
145
151
7~151
3
15
166
152~166
4
137
303
167~303
5
78
381
304~381
6
15
150
531
382~531
7
10
100
631
532~631
8
36
667
632~667
9
6
60
727
668~727
10
11
738
728~738
=738
738
一种多项抽样
2拉希里方法
不需要累计,两次随机数决定抽中的单位。
第一次:1-N之间的随机数i
第二次: 1-maxM之间的随机数m
如果Mi> m,第i个单位被抽中
3不等概等距抽样
K=M0/n
Mi
<k不重复
>k可能重复
>2k肯定重复
不等概抽样 来自淘豆网m.daumloan.com转载请标明出处.