Permutation、 Bootstrap and the Jackknife
随机化:刀切法, 自助法和置换检验
Chapter 14
What is a jackknife?
刀切法是回答对某一统计量的估计有多精确的一种随机化方法。
该方法每次从原样本中剔除一个样品, 得样本含量为n-1的新样本, 由新样本计算n-1个统计量估计值, 形成对统计量的样本,称为Jackknife估计。
它可以用于估计统计量的偏差或标准误,但一般不能用于对置信区间的估计。
(Jackknife)
生态学实例:用基尼系数度量臭椿幼苗大小的等级
两个实验:
1)从大量种子中随机选择6粒种在独立花盆里。
2)选100粒种在一个种植盘里。
5个月后,测量每个成活植物的叶节(leaf nodes)数(=小叶数)。
基尼系数是20世纪初意大利学者基尼(Corrado Gini)根据劳伦茨曲线所定义的判断居民收入分配公平程度的指标。
基尼系数的取值范围在0-1之间。基尼系数最大为“1”,表示居民之间的收入分配绝对不平均,即100%的收入被一个单位的人全部占有了;
最小等于“0”, 表示居民之间的收入分配绝对平均,即人与人之间收入完全平等,没有任何差异。
基尼系数(Gini coefficient)
基尼系数G是关于植物大小不均衡性的量度。它的数值从0 (即所有植物大小一样) 到理论上的上限1 (即一个植物非常巨大而所有其他植物非常小)。
计算公式:
生态指数—基尼系数G
n:植物的个数
xi:是第i个植物的大小(x1 ≤ x2 ≤. .. ≤ xn)
G1=
G2=
仅有一个值,
无法进行精
度估计
根据G,可以构造一个jackknife样本估计量:
1) 去掉原样本中的第i个数据,用剩下的大小为n-1
的 jackknife样本来求G,并用G-i记为此时的估计量
(共有n个jackknife估计量)。
pi=G+(n-1)(G-G-i)
3)计算伪值的均值
2) 每个扰动后的数据与原统计量结合起来,对n个数据点的每一个计算一个伪值pi(pseudo value):
应用刀切法处理基尼系数:
原数据
G-i
Pi
p
由刀切法估计的偏差为: bias=G-p
刀切法对于标准误的估计:
n: 样本数
G:样本基尼系数
: 刀切法伪值的均值
Jackknife的优缺点
优点:运用Jackknife 法对参数进行精度估计,
不要求样本服从特定分布,通用性好,结果可
靠,并能对样本数据尤其是单次测量样本数据
的准确性进行检验。
缺点:一般不能被用于估计置信区间或假设检
验(由于无法得到正确的自由度)。
但是: 有人使用df=n-1(n=原样本量) ,觉得好使
(Meyer et al. 1986)。
Permutation、 Bootstrap and the Jackknife.ppt 来自淘豆网m.daumloan.com转载请标明出处.