其中,几何 为桧查函数(checkfunction ) ,定义为:
用R语言进行分位数回归:基础篇
危鹏
(加大学经济管理学院)
本文根据文献资料甦理,以介绍方法为主要目的,作者的主要贡献有: (1 )整理了分位数回归的一些基本原理和方法; (2)归纳了用R语言处理分位
数回归的程序,其中写了两个函数整合怙计结果;(3)写了一个分位数分解函数来处理MM2005勺分解过程;(4)使用一个数据集进行案例分析,完整地展现 了分析过程。
第一节分位数回归介绍
(•)为什么需要分位数回归?
传统的线性回归模型描述了因变量的条件均值分布受自变量 X的影响过程。其中,最小二乘法是估计回归系数的最基本方法。如果模型的随机误差项来
日均值为零、方差相同的分布,那么回归系数的展小二乘估计为玻佳线性无偏估计( BLUE ;如果随机误差项是正态分布,那么回归系数的最小二乘估计与极
大似然估计•致,均为最小方差无偏估计1MVU)。此时它具有无偏性、有效性等优良性质,
但是在实际的经济生活中,这种假设通常不能够满足,例如当数据中存在严重的异方差,或后尾、尖峰情况时,最小二乘法的估计将不再具有上述优良
性质。为了弥补普通戢小二乘法(OLS在回归分析中的缺陷,1818年Laplace [2]提出了中位数回归(最小绝对偏差怙计)。在此基础上, 1978年Koenker
和Bassett [3]把中位数回归推广到了-•俄的分位数回日(Quantile Regression )上,
分位数回汨相对于最小二乘回归•应用条件更加宽松,挖掘的信息更加丰富。它依据因变量的条件分位数对自变量 X进行回归,这样得到了所有分位数
下的回归模型。因此分位数回归相比普通的最小二乘回归能多更加精确第描述自变量 X对因变量Y的变化国•以及条件分布形状的影响。
(-)-小简单的分位数回日模型[4]
假设随机变量的分布函数为
丫的心分位数的定义为满足押3»芝的附小鬣值,即
(2)
其中,几何 为桧查函数(checkfunction ) ,定义为:
回用分析的基本思想就是使样本值与拟合值之间的距寓圾短,对于
丫的•组随机样本
,样本均值回扫是使误差平方和最小,即
样本中位数回归是使误差绝对值之和最小,即
(4)
样本分位数回月是使加权误差绝对值之和最小,即
其中,几何 为桧查函数(checkfunction ) ,定义为:
其中,几何 为桧查函数(checkfunction ) ,定义为:
上式可等价表示为:
其中,几何 为桧查函数(checkfunction ) ,定义为:
网
2、R语言quantreg包中的假设椅验
其中.
为指示函数(indicator function ) . z是条件关系式,当z为其时,
当Z为假时,JCz)—°
同线性方程y=kx比较.
相当于直线的斜率k,可以看出.
为分段函数,如下图所示
网
2、R语言quantreg包中的假设椅验
通过求解(8)式得到参数估计值
现假设因变成Y由k)自变量组成的矩阵X线性表示,对F条件均值函数
B = ar S min {迟山-立立甸与
网
2、R语言quantreg包中的假设椅验
u
对于条件分位数函数,通过求解(9)式得到参数估计值
呷min甘
式中. 曲数表示取困数最小值时 的取值
(三)分位数回归模型的参数估计算法
1、主要算法
(1)单纯形算法(Simplex Method)
Koenker和Orey[5] ( 1993)把分两步解决我优化问题的单纯形算法 [6]扩展到所有回扫分位数中。该算法估计出来的参数具有很好的捺定性,但
是在处理大型数据时运算的速度会显著降低。
(2)点算法(Interior Point Method )
由干单纯形算法在处理大型数据时效率低下, Karmarker提出了点算法[7] ; Portnoy和Koenker把这种方法是用在分位数回归中,得出了处理大型数
据时点算法的这算速度远快于单纯形算法的绪论。但点算法每计算•步都要进行因数分解,当日变量比较多的时候效率比较低。其次,如果要达到和单纯形算法•样的精度,就必须进行舍 入步骤的计算,者也降低了算法的运行效率。
(3)平涓算法(Smoothing Method)
上逑两种算法都有各自的优点和不足,而有限平涓算法则
用R语言进行分位数回归 来自淘豆网m.daumloan.com转载请标明出处.