参考资料 1 、陈峰等,医用多元统计分析方法,中国统计出版社, 2000 年12月第 1版 2 、张尧庭,定性数据的统计分析,广西师范大学出版社, 1991 年 11月第 1版 3、阮敬, SAS 统计分析—从入门到精通, 人民邮电出版社,2009 年4月第 1版, 元 4 、王静龙,定性数据的统计分析, 类型分类( 因变量)例定量连续/计量利润离散/计数人口定性( 名义) 二分类性别多分类(无序)职业多分类(有序)学历一、变量的分类变量的分类????????????????????连续/计量例如,身高定量离散/计数例如,人数有序例如,学历定性二分类例如,性别无序多分类例如,职业注:计量指标与计数指标一般好区别。特殊情形下不好区别,如年龄。类型分类( 因变量)例方法分布备注定量连续/计量利润/身高普通回归正态可运算离散/计数人口普通或 L og回归 Poiison 分布可运算定性( 名义) 二分类性别 L ogit 回归二项分布不可运算多分类(无序)职业 L ogit 回归二项分布不可运算多分类(有序)学历 L ogit 回归 Poiison 分布不可运算因变量 y 自变量 1 , , k x x ?方法分布定量(连续,离散) 定量(连续,离散),定性普通回归模型二分类连续,定性(二分类,多分类) L ogit 模型二项分布可在 statistic a下实现多分类多分类(有序)基准—类别 L ogit 模型 Poiison 分布 SAS 中可非线性多分类(无序)累积 L ogit 模型多项分布定量,定性定量,定性? 二、 logistic 回归模型 1、 logit 变换研究上市公司中企业类型( ST 与非 ST )与财务指标的关系。研究事件 A 发生的概率 p 与某些因素的关系。例如,讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄的关系。显然人群中只有两种状态“动脉硬化”和“动脉非硬化”(简称为“患病”和“不患病”),人群的状态记为 y ,则“患病”和“不患病”对应着 y 的两个取值:1y?,0y?。用事件表示即?? 1y?—“患病”=“动脉硬化”,?? 0y?—“不患病”=“动脉非硬化”若患病率记为 p ,则?? 1 P y p ? ?显然???? 0 1 1 1 P y P y p ? ?????讨论患病率 p 与年龄 x 的关系,显然,患病率随着年龄 x 的增加而增长。例,观察了 123 位糖尿病患者,记录了他们的年龄 x 以及是否患动脉硬化 y 。数据见本章第四节附录——数据。数据格式见下表。表1 数据 nyxF(组数) 10 321 20 341 ………… 122 1 77 10 123 1 78 10 表2 符号说明符号解释注 n编号 y 是否动脉硬化 1——动脉硬化 0——动脉非硬化 x年龄 f分组根据这些数据分析是否患病 y 与年龄 x 的关系? 能否建立 y 关于 x 的回归方程?不行。因为 y 的取值并无实际意义。将数据分组,得到各组的患病率 ip (见表 3),能否建立 p 关于 x 的回归方程? 表3 分组数据分组组号组中值 ixn 实际频数 1n (患病) 实际频率 1 p n n ?(患病)? ip 35以下 20 36— 71 41— 123 46— 116 51— 129 56— 1512 61— 2420 66— 2322 71— 1414 76以上 33 合计 123 建立 p 关于 x 的回归模型: 0 1 p x ? ??? ??根据表 3,得到 p 关于 x 的回归方程 p x ?? ?此回归方程是否真实地描述了 p 与x 的关系?答案是否定的。原因(也是解决此问题的困难)如下: 第一,当 70 x?时, 1.? p?,而 p 的值仅在[0, 1] 区间内变化,所以 p 不可能是 x 的线性函数。因为二次函数和多项式函数的值都会超过[0, 1] 区间,所以 p 也不可能是 x 的二次函数或多项式函数; 第二,观察表 3 和上图可发现,p 对x 的散点图呈“S”形。p 对x 的变化在 0p?和1p?附近缓慢而不敏感,在 p?附近变化却变化幅度很大。即
2015多元统计回归 10章—Logit回归. 来自淘豆网m.daumloan.com转载请标明出处.