下载此文档

r语言与机器学习(6)logistic回归资料.docx


文档分类:IT计算机 | 页数:约21页 举报非法文档有奖
1/21
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/21 下载此文档
文档列表 文档介绍
写在前面的废话 2014 ,又到了新的一年,首先祝大家新年快乐,也感谢那些关注我的博客的人。现在想想数据挖掘课程都是去年的事了,一直预告着,盘算着年内完工的分类算法也拖了一年了。本来打算去年就完成分类算法,如果有人看的话也顺带提提关联分析,聚类神马的, 可是, 。借着新年新气象的借口来补完这一系列的文章, 可是,这明明就是在发。尽管这个是预告里的最后一篇,但是我也没打算把这个分类算法就这么完结。尽管每一篇都很浅显,每个算法都是浅尝辄止的,在deep learning 那么火的今天,掌握这些东西算起来屌丝得不能再屌丝了。考虑到一致性与完备性,最后补上两篇一样 naive 的:组合方法提高分类效率、几种分类方法的绩效讨论。希望读到的人喜欢。算法六: logistic 回归由于我们在前面已经讨论过了神经网络的分类问题(参见《 R语言与机器学(分类算法)(5) 》),如今再从最优化的角度来讨论 logistic 回归就显得有些不合适了。Logisti c 回归问题的最优化问题可以表述为: 寻找一个非线性函数 sigmoid 的最佳拟合参数,求解过程可使用最优化算法完成。它可以看做是用 sigmoid 函数作为二阈值分类器的感知器问题。今天我们将从统计的角度来重新考虑 logistic 回归问题。一、 logistic 回归及其 MLE 当我们考虑解释变量为分类变量如考虑一个企业是否会被并购,一个企业是否会上市,你的能否考上研究生这些问题时,考虑线性概率模型 P(yi =1)= β0+β1xi 显然是不合适的,它至少有两个致命的缺陷: 1、概率估计值可能超过 1,使得模型失去了意义;(要解决这个问题并不麻烦,我们将预测超过 1的部分记为 1,低于 0的部分记为 0,就可以解决。这个解决办法就是计量里有一定历史的 tobit 模型)2、边际效应假定为不变,通常来说不合经济学常识。考虑一个边际效应递减的模型(假定真实值为蓝线),可以看到线性模型表现很差。但是 sigmoid 函数去拟合蓝线确实十分合适的。于是我们可以考虑 logistic 回归模型: 假定有 N个观测样本 Y1,Y2, …,YN ,设P(Yi=1|Xi)= π(Xi) 为给定条件 Xi下得到结果 Yi=1 的条件概率;而在同样条件下得到结果 Yi=0 的条件概率为 P(Yi=0|Xi)=1- π(Xi) ,于是得到一个观测值的概率 P(Yi)= π(Xi)Yi[1- π(Xi)] 1-Yi 假设各观测独立,对 logistic 回归模型来说,其对数似然函数为: 于是便可求解出 logistic 模型的 MLE 。二、 logit 还是 probit? 虽说 sigmoid 函数对边际递减的模型拟合良好,但是我们也要知道 S型函数并非仅sigmoid 函数一个,绝大多数的累积分布函数都是 S型的。于是考虑 F-1(P)(F 为标准正态分布的累积分布函数)也不失为一个很好的选择。像这样的,对概率 P做一点变换,让变换后的取值范围变得合理, 且变换后我们能够有办法进行参数估计的,就涉及到广义线性模型理论中的连接函数。在广义线性模型中我们把 log(P/(1-P)) 称为 logit , F-1(P)(F 为标准正态分布的累积分布函数)称为 probit 。那么这里就涉及到一个选择的问题:连接函数选logit 还是 probit?logistic 回归认为二分类变量服从伯努利分布,应当选择 logit ,而且从解释的角度说, p/ (1-p) 就是我们常说的 odds ratio ,也就是软件报告中出现的 OR值。但是 probit 也有它合理的一面,首先,中心极限定理告诉我们,伯努利分布在样本够多的时候就是近似正态分布的;其次,从不确定性的角度考虑,probit 认为我们的线性概率模型服从正态分布,这也是更为合理的。我们来看一下经过变换后,自变量和 P的关系是什么样子的: 如果你确实想知道到底你的数据用哪一个方法好,也不是没有办法,你可以看一下你的残差到底是符合 logit 函数呢还是符合 probit 函数,当然,凭肉眼肯定是看不出来的,因为这两个函数本来就很接近,你可以通过函数的假定,用拟合优度检验一下。但通常,估计不会有人非要这么较真,因为没有必要。但是有一点是要注意的, logit 模型较 probit 模型而言具有厚尾的特征,这也是为什么经济学论文爱用 logit 的原因。我们以鸢尾花数据中的 virginica,versicolor 两类数据分类为例,看看两种办法分类有无差别。 versicolor virginica versicolor 473virginica 347 versi

r语言与机器学习(6)logistic回归资料 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数21
  • 收藏数0 收藏
  • 顶次数0
  • 上传人q1188830
  • 文件大小0 KB
  • 时间2016-04-12
最近更新