基于R软件的Logistic回归实证分析.doc基于R软件的Logistic回归实证分析
应用统计章程1220120484
摘要:Logisic回归模型是研究响应变量为非连续变量时的一种重要分析方法,但它的计算 依赖于统计软件。本文通过实证对使用R软件处理Logistic模型做出简要分析。
引言:线性回归模型是定量分析和数据挖掘中最常用的统计分析方法之一,但线性回归分析 一般要求响应变量是连续变量、数据分布为正态分布等条件。在实际分析研究中,经常遇到 的是非连续的响应变量,即分类响应变量,如经济学研究中所涉及的是否购买某种商品、流 行病学中研究的某些条件下是否会患病等。在研究二分变量与诸多自变量之间的相互关系 时,通常选用Logistic回归模型。
1、 Logistic 回归
Logistic模型是由比利时生物学家Verhulst于1838年提出,最早是为了研究人口问题而 对Malthus方程做出的改进,起初并没有引起重视,后来美国人口学家Pear在研究美国人 口问题时再次提出这个方程才使其开始流行,故现代文献中常称之为Verhulst-pearl阻碍方 程。该模型之所以称为Logistic模型,是因为其有某种推理的含义。
一般的Logistic模型形式如下:
P(Y=llX|,X2,…,xn)
_ exp(0o+0]Xj+・・・ + 0”Xn)
l + exp(0o+0iXj+・・・ + 0”Xn)
对上式做logit变换,Logistic回归模型可以写成:
logit(p)=ln( -2- )=^0 + + …+ AX„
1-P
由于Logistic回归模型涉及较复杂的数学理论,数据统计分析的计算往往较为复杂,一 般无法用手工计算,只能在计算机上实现。在统计软件方面,常用的有SAS、SPSS、S-PLUS 等,但这些软件大多是商业性的,需要支付昂贵的购买费用。而R软件是一款免费的统计 软件,它提供了有弹性的、互动的环境来分析、展示数据,且提供若干统计程序包以及一些 集成统计计算工具和函数,使得用户可以灵活机动地进行数据分析,简化了数据分析过程。 它可以完成大多数模型的统计计算,并帮助用户分析计算结果。本文将结合实例,展示如何 在R软件中实现对Logistic模型的统计分析。
2、 Logistic模型的拟合
回归模型的拟合主要是求模型中的参数估计值,Logistic模型的参数估计通常采用极大 似然法(maximum likelihood, ML)。极大似然法的基本思想是先建立似然函数与对数似然 函数,再通过使对数似然函数最大来求解相应的参数值,所得到的估计值称为参数的极大似 然估计值。极大似然估计具有一致性、有效性和正态性等很好的统计性质,样本数据越大时, 其估计值就越精确。
鉴于Logistic模型时基于二项分布族的广义线性模型,因此在R软件中可通过glm语句 建立回归关系,再用summary语句得到其详细结果。在得到模型拟合结果后,还可用
,通过该语句直接得到像cook距离、帽了矩阵对角元 值等基本量。再通过函数运算可得到其他统计量,进而进行诊断分析。
3、案例分析:
资料为50位急性白血病人是否存活Y、入院后取得的淋巴浸润等级XI、以及出院后有 无巩固治疗X2。根据该数据,用R软件拟合Lo
基于R软件的Logistic回归实证分析 来自淘豆网m.daumloan.com转载请标明出处.