列联表对数线性模型
三维列联表(关于某项政策调查所得结果:)
观点:赞成(1)
观点:不赞成(0)
低收入(1)
中等收入(2)
高收入(3)
低收入(1)
中等收入(2)
高收入(3)
男1
20
10
5
5
8
10
女0
25
15
7
2
7
9
列联表对数线性模型
列联表
前面就是一个所谓的三维列联表(contingency table).
这些变量中每个都有两个或更多的可能取值。这些取值也称为水平;比如收入有三个水平,观点有两个水平,性别有两个水平等。该表为3×2×2列联表
在SPSS数据中,表就不和课本印的一样,收入的“低”、“中”、“高”用代码1、2、3代表;性别的“女”、“男”用代码0、1代表;观点“赞成”和“不赞成”用1、0代表。有些计算机数据对于这些代码的形式不限(可以是数字,也可以是字符串)。
列联表对数线性模型
数据
列联表对数线性模型
列联表
列联表的中间各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。
二维的列联表又称为交叉表(cross table)。
列联表可以有很多维。维数多的叫做高维列联表。
注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。
列联表对数线性模型
二维列联表的检验
研究列联表的一个主要目的是看这些变量是否相关。比如前面例子中的收入和观点是否相关。
这需要形式上的检验
列联表对数线性模型
二维列联表的检验
下面表是把该例的三维表简化成只有收入和观点的二维表(这是SPSS自动转化的:Analyze-Descriptive Statistics-Crosstabs-…..).
列联表对数线性模型
二维列联表的检验
对于上面那样的二维表。我们检验的零假设和备选假设为
H0:观点和收入这两个变量不相关;H1:这两个变量相关。
这里的检验统计量在零假设下有(大样本时)近似的c2分布。
当该统计量很大时或p-值很小时,就可以拒绝零假设,认为两个变量相关。
实际上有不止一个c2检验统计量。包括Pearson c2统计量和似然比(likelihood ratio)c2统计量;它们都有渐近的c2分布。
根据计算可以得到(对于这两个统计量均有)p-。因此可以说,收入高低的确影响观点。
列联表对数线性模型
Pearson c2统计量
似然比c2统计量
Oi代表第i个格子的计数,Ei代表按照零假设(行列无关)对第i格子的计数的期望值
列联表对数线性模型
二维列联表的检验
刚才说,这些c2统计量是近似的,那么有没有精确的统计量呢?
当然有。这个检验称为Fisher精确检验;它不是c2分布,而是超几何分布。
对本问题,计算Fisher统计量得到的p-。
聪明的同学必然会问,既然有精确检验为什么还要用近似的c2检验呢?
这是因为当数目很大时,超几何分布计算相当缓慢(比近似计算会差很多倍的时间);而且在计算机速度不快时,根本无法计算。因此人们多用大样本近似的c2统计量。而列联表的有关检验也和c2检验联系起来了。
列联表对数线性模型
列联表对数线性模型 来自淘豆网m.daumloan.com转载请标明出处.