• 论文
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会
Dirichlet过程混合模型的聚类算法
  • 作者

    张林刘辉

  • 单位

    中国矿业大学信息与电气工程学院

  • 摘要
    有限混合模型进行高维数据聚类分析时需预先估计聚类个数,因而聚类的准确性和泛化性受到影响.通过建立Dirichlet过程无限混合模型对高维数据开展聚类分析,采用Dirichlet过程的Urn模型分析出模型中各参数的后验分布,利用Gibbs采样MCMC方法估计出模型中各参数及数据中潜在的聚类数.在五维的仿真数据集和IRIS测试数据集上的聚类结果表明:经过200次Gibbs采样MCMC过程,该算法能够正确地估计出数据中潜在的聚类数.单次Gibbs采样MCMC过程的平均占用时间分别为0.185 0s和0.145 5s,其时间复杂度和数据的样本个数N有关,为O(N).
  • 关键词

    聚类Dirichlet过程无限混合模型马尔科夫-蒙特卡罗

  • 基金项目(Foundation)
    中央高校基本科研业务费专项资金项目(2010QNA50,2010QNA47);霍英东基金会青年教师基金项目(121066);
相关问题

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联