第9章分类数据分析
分类数据与卡方统计量
拟合优度检验
列联分析:独立性检验
列联表中的相关测量
列联分析中应注意的问题
分类数据与卡方统计量
分类数据:
数据结果用数值表示,但不同数值描述的是调查对象的不同特征。
分类数据汇总的结果表现为频数。
数值型数据也可以表示为分类数据
卡方检验是对分类数据的频数进行分析的统计方法。
卡方统计量
:测定两个分类变量之间的相关程度
拟合优度检验(goodness of fit test)
对一个分类变量的检验
定义:依据总体分布状况,计算分类变量中各类别的期望频数,与观察频数进行对比,判断期望频数与观察频数是否有显著差异。
目的:对分类变量进行分析
例:1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共718人,其中男性374人,女性344人,以α=?
如果存活状况与性别无关,男性与女性的幸存比例应该相等。
海难后幸存比例为718/2208=
男性应该为1738*=565人
女性应该为470*=153人。
观测值
期望值
男
374
565
-191
36481
女
344
153
191
36481
解:判断观察频数与期望频数是否一致
H0:观察频数与期望频数一致
H1:观察频数与期望频数不一致
自由度df为:分类变量(性别)的个数-1=1
c2
α=
决策:拒绝H0
结论:存活状况与性别有关
拒绝域
例题2
一项统计结果声称,%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人老年人。%的看法?
解:
H0:观察频数与期望频数一致
H1:观察频数与期望频数不一致
期望频数:400居民中老年人的期望频数应该为400*%=59
400居民中非老年人的期望频数应该为400-59=341
观测值
期望值
老年人
57
59
-2
4
非老年人
343
341
2
4
自由度为:分类变量类型的个数-1=1
c2
α=
拒绝域
列联分析:独立性检验
独立性检验:对两个分类变量的分析,是否有关联
列联表:
由两个以上的变量进行交叉分类的频数分布表
行变量的类别用 R表示, Ri 表示第 i 个类别
列变量的类别用 C 表示, Cj 表示第 j 个类别
每种组合的观察频数用 fij 表示
列出了行变量和列变量的所有可能的组合,所以称为列联表
一个 R行 C列的列联表称为 R C列联表
分类数据分析3 来自淘豆网m.daumloan.com转载请标明出处.