TwoStep是处理大数据集的聚类方法,该聚类方法能够处理连续的 和类别变量,在clem中的标记如下图。
TwoStep顾名思义,聚类的过程分为两步:
第一步,数据的简单处理,将数据压缩为简单易处理的自聚类(基于birch算法的,CF Tree);
第二类:采用层次聚类的方法,将上述子类进行聚类。
层次聚类的关键 是计算两个类别:i, j之间的距离:
两步聚类通过一个两阶段过程确定最佳聚类数,在第一个阶段,随着所添加聚类的增多,可基于贝叶斯信息准则(BIC)中的差异选择模型中聚类数的上限;在第二个阶段为聚类数比最小BIC解决方案还少的所有模型找出聚类间最小距离的差异,距离的最大差异用于识别最终聚类模型。
评论