注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘

学习数据挖掘

 
 
 

日志

 
 

SAS logistic回归之结果判定准则  

2013-05-28 14:24:10|  分类: SAS |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
资料参考来源:《SAS编程与数据挖掘商业案例》第13章

什么是logistic回归

假设在自变量X1,X2,...Xn作用下,某事件发送的概率为p,则该事件不发的概率为1-p,p/(1-p) 为发生和不发生的概率之比,记做“优势”(odds),若对odds取自然对数,得到:
                                              logit(p)=ln(odds)=ln(p/(1-p))
称为P的logit变换,则logistic回归模型为:
SAS logistic回归 - 小坏 - Do  What
 注:logistic回归与一般线性回归模型的区别:
*线性回归的结果变量 与因变量或者反应变量与自变量之间的关系假设是线性的,而logistic回归中 两者之间的关系是非线性的。
*前提假设不同,在线性回归中,通常假设,对于自变量x的某个值,因变量Y的观测值服从正态分布,但在logistic回归中,因变量Y 服从二项分布或者多项分布。
*logistic中不存在线性回归中的残差项。

Logistic 采用MLE来估计参数,简介如下:(直接截图)
SAS logistic回归 - 小坏 - Do  What
 
SAS logistic回归 - 小坏 - Do  What
 模型评价指标
1,拟合优度(goodness of fit)
         拟合优度度量的是预测值和观测值之间的总体一致性。但是在评价模型时,实际上测量的是预测值和观测值之间的差别,也就是实际上检测的是模型预测的“劣度”不是”优度“,即拟合不佳检验 (lack of fit test)常用的两个指标是 Hosmer-Lemeshow指标(HL)和信息测量指标(information measure)(IM).
          Hosmer Lemeshow拟合优度指标(通常简写为H-L),是由Hosmer和Lemeshow在1989年提出的一种Logistic模型拟合优度检验的方法.      其对应的统计假设H0是预测值概率和观测值之间无显著差异,所以如果HL指标显示较大的P-value,说明统计结果不显著,因此,不能拒绝关于模型拟合数据很好的假设,换句话说,模型很好的拟合了数据。可以通过SAS中调用Lackfit 选项命令实现。
SAS logistic回归 - 小坏 - Do  What

                          IM指标中比较著名的是AIC,在其他条件不变的情况下,较小的AIC值表示拟合模型较好,在SAS中还提供了另外一种IM指标SC,SC指标是对AIC指标的一种修正,与AIC同向作用。
2,模型卡方统计(model chi-square statistic)
模型卡方统计检测的是模型中所包含的统计量对因变量有显著的解释能力。也就是说所设模型比零假设模型(即只包含常数项的模型)要好,在多元线性回归和ANOVA中,常用F检验达到目的。在logistic中用似然比检验(likelihood ratio test),相当于F检验,在SAS输出结果中就是Likelihood ratio 对应的值。
 需要注意的是,模型卡方值和拟合优度是两个完全不同的概念:模型卡方值度量的是自变量是否与因变量的odds自然对数线性相关,而 拟合优度 度量的是预测值与观测值之间的一致性。所以按照理想情况,最好是模型的卡方检验统计性显著而拟合优度的统计性不显著。如果发生不一致,实践中更优先关注前者。

3,预测准确性

 

模型卡方统计关注的只是对于零假设模型而言,所设模型显著不显著,它只是从总体上考虑了模型的显著性,但是所有X变量到底能解释多少 Y变量的波动?这是预测准确性的问题,有两种方法:

 * RSQUARE指标:在线性回归中,可以用RSQUARE来度量,显然RSQUARE越高说明预测越好,在logistic中,也有类似的指标,在SAS中调用命令RSQ即可。logistic中的RSQUARE也有许多重要的性质:与经典的RSQUARE定义一致,它可以被理解为Y变异中被解释的比例。

*C统计量:拟合优度只是给出了观测值和预测概率直接的差别程度,然后给出了一个总体评价的指标,但是在实际应用中,人民往往更关心观测值和模型预测的条件事件概率的关联强度,这类指标被称为序列相关指标,指标值越高,表示预测概率与观测反应变量直接的关联越密切。举例说明:

SAS logistic回归 - 小坏 - Do  What
 
SAS logistic回归 - 小坏 - Do  What
 
SAS logistic回归 - 小坏 - Do  What
     在商业实践中,对以上统计量最为关注的是C统计量,其次是似然卡方统计量,然后才是HL统计量,对AIC RSQUARE 极少关注,这一点和多元线性回归有很大的不同,根本原因是多元线性回归是一个预测模型,目标变量的值具有实际的数值意义;而logistic是一个分类模型,目标变量的值是一个分类标识,因此更关注观测值和预测值之间的相对一致性,而不是绝对一致性。

 

回归系数

logistic回归西数的解释和多元线性回归几乎一样,重点介绍三点:

1,关于odds odds ratio

这两个概念是logistic独有的。odds的定义在前面已经说过,odds ratio 指两个odds之比,用以衡量自变量对响应变量的作用大小。

 

2,关于变量的重要性衡量

变量的重要性必须通过标准化回归系数来衡量,在SAS中调用STB命令实现。

SAS logistic回归 - 小坏 - Do  What
 

 变量筛选方法

常用的Logistic模型为向前回归法、向后回归法、逐步回归法、全模型法四种模型。

 

全模型法

全模型法是指在特定的模型大小范围内,找出指定的最佳模型(具有最小的CP)。通常和BEST连用,如BEST=2,就表示在不同变量个数组成的全模型组中,选择两个最好的模型,显然如果没有best选择,则全部组合数是C(N,2)。度量全模型的统计量是Cp,一般要求Cp<P,这里p是所有变量的个数加1.

      Cp=(n-p-1)(MS误差p/MS误差.全部-1)+(p+1)----来源网络,不知道是否可靠

全模型法最大的好处是可以计算每一个变量组合下模型的C统计量以及对应的lift值,这样可以做不同模型直接的比较,缺点是计算量大。调用的SAS命令:selection=score   best=    start=  stop= 。其中start=选项表示最少的变量组合数,默认值是1stop=选项表示最多的变量组合数,默认值是所有变量数。

 


 


 
  评论这张
 
阅读(11587)| 评论(1)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017