第一节 基本概念
在医学,生物学研究中,常用到生存分析 (Survival Analysis)方法。例如对于肿瘤等疾病的疗效及预后的考核,通常不用治愈率,有效率等表示,而用将来复发或死亡的时间长短表示,也即生存期来表示。
所谓生存期(survival time)是指从某个标准时刻(如发病,确诊,开始治疗或进行手术的时间)算起至死亡或复发为止的时间。
第一页,共42页。
生存期不同于一般指标的二个特点:
(censored data)
随访中未能知道病人的确切生存时间,只知道病人的生存时间大于某时间。
(1)病人失访或因其他原因而死亡---失访
(2)到了研究的终止期病人尚未死亡---终访
截尾数据可记为t+,如: 4+ = 生存时间大于4年。
虽然截尾数据提供的信息是不完全的,但不能删去,因为这不仅损失了资料,而且会造成偏性。
第二页,共42页。
2. 生存期的资料一般不服从正态分布。
由于上述原因,常用的统计方法不适用,而要用特殊的统计方法。
生存分析是指对于生存期这一指标进行分析的一系列特殊的统计方法。
第三页,共42页。
生存时间不一定专用于死与活的情况,生存时间(存活时间)可定义为从某种起始事件到达某终点事件所经历的时间跨度。例如急性白血病病人从治疗开始到复发为止之间的缓解期;冠心病病人在两次发作之间的时间间隔;已作输卵管结扎的妇女从施行输卵管吻合手术后至受孕的时间间隔;在流行病学研究中,从开始接触危险因素到发病所经历的时间等都可作为生存时间用作生存分析。
有时还收集一些有关因素(称为自变量或协变量), 以分析这些协变量是否对生存时间有影响,影响的大小,是缩短或延长生存时间。这可以通过Cox回归进行分析,因此,Cox 回归可看成带有协变量的生存分析。
第四页,共42页。
包括:
(1)开始观察日期,终止观察日期---生存时间
(2)结局(最终的观察到的是死亡还是存活)
死于该病---完全数据
存活或死于其他原因---截尾数据
每个生存期数据要用2个变量表示:观察到的生存时间和是否截尾(如:用1表示截尾,用0表示死亡;4+ 用4,1表示;4用4,0表示)。
(3)协变量---各种影响生存期长短的因素。
随访资料的记录:
第五页,共42页。
第二节 描述生存时间分布规律的函数
一. 生存率(Survival Rate)
又称为生存概率或生存函数,它表示一个病人的生存时间长于时间t的概率,用S(t) 表示: s(t)=P(Tt)
如5年生存率: s(5)=P(T5)
以时间t为横坐标,S(t)为纵坐标所作的曲线称为生存率曲线, 它是一条下降的曲线,下降的坡度越陡,表示生存率越低或生存时间越短,其斜率表示死亡速率。
第六页,共42页。
第七页,共42页。
§ 概率密度函数
(Probability Density Function)
简称为密度函数,记为f(t),其定义为:
f(t)=lim (一个病人在区间(t,t+△t)内死亡概率/△t)
它表示死亡速率的大小。如以t为横坐,f(t) 为纵坐标作出的曲线称为密度曲线,由曲线上可看出不同时间的死亡速率及死亡高峰时间。纵坐标越大,其死亡速率越高,如曲线呈现单调下降,则死亡速率越来越小,如呈现峰值,则为死亡高峰。
第八页,共42页。
§ 风险函数(Hazard Function)
用h(t)表示,其定义为:
h(t)=lim(在时间t生存的病人死于区间(t,△t)的概率/△t)
由于计算h(t)时,用到了生存到时间t,这一条件,故上式极限式中分子部分是一个条件概率。可将h(t)称为生存到时间t的病人在时间t的瞬时死亡率或条件死亡速率或年龄别死亡速率。当用t作横坐标,h(t)为纵坐标所绘的曲线,如递增,则表示条件死亡速率随时间而增加,如平行于横轴,则表示没有随时间而加速(或减少)死亡的情况。
第九页,共42页。
风险函数的不同情况:
常数, 如:死于飞机失事。
下降, 如:急性损伤。
上升, 如:持续接触危险因素。
澡盆样,如:人的一生。
第十页,共42页。
生存数据分析 来自淘豆网m.daumloan.com转载请标明出处.