注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘

学习数据挖掘

 
 
 

日志

 
 

clementine之特征选择节点  

2013-03-28 21:32:53|  分类: Clementine |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
Feature Selection node 
特征选择节点是选择变量、对变量重要性进行排序的节点。
clementine之特征选择节点 - 小坏 - Do  What

这几个选项是简单的按照单一指标选取的直接使用即可。
clementine之特征选择节点 - 小坏 - Do  What

这一选项的难点在于对于P-值的了解,共计4个排序准则。

一:目标变量为类别变量时
此时考虑三种情况:输入全部为类别变量,输入全部为连续变量,输入既有连续变量 又有类别变量
1,输入的全部为类别变量;
约定:
X      有I个类别的输入变量
Y      有J个类别的输出变量
N       事务数量
N{ij}  类别X=i and Y=j的事务数量
N{i}    sum N{ij} for all j
N{j}    sum N{ij} for all  i
a....Pearson 系数:d=(I-1)(J-1)
clementine之特征选择节点 - 小坏 - Do  What
 p=(x^2{d}>X^2)
b....Likehood ratio (chi-square)
clementine之特征选择节点 - 小坏 - Do  What
 p=(x^2{d}>G^2)

c....Cramer's  V

clementine之特征选择节点 - 小坏 - Do  What
 d....Lambda  系数
 clementine之特征选择节点 - 小坏 - Do  What
 
2,输入的全部为连续变量;



clementine之特征选择节点 - 小坏 - Do  What
clementine之特征选择节点 - 小坏 - Do  What
 clementine之特征选择节点 - 小坏 - Do  What所有事务对应的均值
计算P值的公式如下:

clementine之特征选择节点 - 小坏 - Do  What
 p=P{F(J-1,N-J)>F}  ,按照p值进行排序。
3,输入的部分为类别变量,部分为连续变量;
如输入变量既有连续变量 也有连续变量,则连续变量的p值计算 仍然是基于前面的F分布的;关于离散的计算 则强制采用pearson chi_square 检验或者 likehood ratio 这样p值就可以比较排序了额。

二:目标变量为连续变量时
此时同样根据输入变量的类型不同,考虑三种情况
 1,输入的全部为类别变量;
clementine之特征选择节点 - 小坏 - Do  What
 
 2,输入的全部为连续变量;
clementine之特征选择节点 - 小坏 - Do  What

 
 3,输入的部分为类别变量,部分为连续变量
 
分别采用上面两种方法。


关于选取指标数量的问题,假设L{0}为备选指标的数量,则最后选择的指标的数量,参考值:
clementine之特征选择节点 - 小坏 - Do  What
 
备注:以上全部来自clem自带的材料。
  评论这张
 
阅读(329)| 评论(2)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017