注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘

学习数据挖掘

 
 
 

日志

 
 

Clem之两步聚类(TwoStep)  

2013-03-30 15:14:53|  分类: Clementine |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
TwoStep是处理大数据集的聚类方法,该聚类方法能够处理连续的 和类别变量,在clem中的标记如下图。

Clem之两步聚类(TwoStep) - 小坏 - Do  What
 

TwoStep顾名思义,聚类的过程分为两步:

第一步,数据的简单处理,将数据压缩为简单易处理的自聚类(基于birch算法的,CF Tree);

第二类:采用层次聚类的方法,将上述子类进行聚类。

层次聚类的关键 是计算两个类别:i,  j之间的距离:
Clem之两步聚类(TwoStep) - 小坏 - Do  What
参数含义说明如下:
 
Clem之两步聚类(TwoStep) - 小坏 - Do  What
 
Clem之两步聚类(TwoStep) - 小坏 - Do  What
 
Clem之两步聚类(TwoStep) - 小坏 - Do  What
聚类数量的确定: 
两步聚类通过一个两阶段过程确定最佳聚类数,在第一个阶段,随着所添加聚类的增多,可基于贝叶斯信息准则(BIC)中的差异选择模型中聚类数的上限;在第二个阶段为聚类数比最小BIC解决方案还少的所有模型找出聚类间最小距离的差异,距离的最大差异用于识别最终聚类模型。
  评论这张
 
阅读(517)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017