摘要
有限混合模型进行高维数据聚类分析时需预先估计聚类个数,因而聚类的准确性和泛化性受到影响.通过建立Dirichlet过程无限混合模型对高维数据开展聚类分析,采用Dirichlet过程的Urn模型分析出模型中各参数的后验分布,利用Gibbs采样MCMC方法估计出模型中各参数及数据中潜在的聚类数.在五维的仿真数据集和IRIS测试数据集上的聚类结果表明:经过200次Gibbs采样MCMC过程,该算法能够正确地估计出数据中潜在的聚类数.单次Gibbs采样MCMC过程的平均占用时间分别为0.185 0s和0.145 5s,其时间复杂度和数据的样本个数N有关,为O(N).