用 R 语言做数据分析一一泊松回归
当通过一系列的连续型或类别型预测变量来预测计数
型结果变量时,泊松回归是一个非常有用的工具。为阐述泊 松回归模型的拟合过程,并探讨一些可能出现的问题,我们 将使用 robust 包中 Breslow 用 R 语言做数据分析一一泊松回归
当通过一系列的连续型或类别型预测变量来预测计数
型结果变量时,泊松回归是一个非常有用的工具。为阐述泊 松回归模型的拟合过程,并探讨一些可能出现的问题,我们 将使用 robust 包中 Breslow 癫痫数据。特别地,我们将讨论 在治疗初期的八周内,抗癫痫药物对癫痫发病数的影响。我们就遭受 轻 微或严重间歇性癫痫的病人的年龄和癫痫发病 数收集了数据,包含病人被随机分配到药物组或者安慰剂组化后八周 癫 痫发病数),预测变量为治疗条件(Trt )、年龄
前八周和随机分配后八周两种情况。响应变量 sumY (随机
Age )和前八周内的基础癫痫发病数(Base )。之所以包
含基础癫痫发病数和年龄,
是因为它们对响应变量有潜在影响。在解 释
这些协变量后,我们感兴趣的是药物治疗是否能减少癫痫发病数。 首 先,看看数据集的统计汇总信息:注意,虽然数据集有 12 个变 量,但
是我们只关注之前描述的四个 变量。基础和随机化后的癫痫发 病数都 有很高的偏度。现在,我们更详细的考察响应变量,如下代 码可生成的 图形如下图所示:从上图可以清楚地看到因变量的偏移特 性及可能的离
群点。初看图形,药物治疗下癫痫发病数似乎变小了, 且方差也变小了
泊松分布中,较小的方差伴随着较小的均值)
与标准最小二乘回归不
同,泊松分布并不关注方差异质性。
输出结果列出了偏差、
p 解释
准误差和参数为 0 的检验。除以,这里的预测变量在 模型参数使用 coef ()函数可获得模型系数,或者调 用
summary ()函数的输出结果中的Coefficients表格:①在泊
松回归中,因变量以条件均值的堆属性是 龄 的回归参数为 0. 0227 ,表明保持其他预测变量不变, 年龄增 加一岁,癫痫发病数的对数平均值将相应增加 0. 03 o 截距项
口口
In (入)来建模。年
口口
口口
即当预测变量都为 0 时,癫痫发病数的对数平均值。由于不 可能为 0 岁,且调查对象的基础癫痫发病数均不为 0,因此 截距项没有任何意 义。通常在因变量的初始尺度(癫痫发病 数、而非发病数的对数)上解 释回归系数比较容易。为此, 指数化系数:现在可以看到,保持其他变 量不变,年龄增加
岁,期望的癫痫发病数将乘以 o 这意味着年龄的增
加与较高的癫痫发病数相关联。更重要的是,一单位 Trt 的 变化(即 从安慰剂到治疗组),期望的癫痫发病数将乘以 0. 86 ,
也就是说,保持基础癫痫发病数和年龄不变,服药组相对于 安慰剂组发 病数降低了 20%。另外需要牢记的是,与 Logistic 回归中的指数化参
数相似,泊松模型中的指数化参数对响应 变量的影响都是成倍增加的,而不是线性相加。同样,我们 还需要评价 波形模型的过度离势。过度离势泊松分布的方差 与均值相等。当响应变 量观测的方差比一句泊松分布预测的 方差大时,泊松回归可能发生过度 离势。由于
用r语言做数据分析泊松回归 来自淘豆网m.daumloan.com转载请标明出处.