• 论文
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会
面向大型数据集的局部敏感哈希K-means算法
  • 作者

    魏峰马龙

  • 单位

    煤炭科学技术研究院有限公司煤炭资源高效开采与洁净利用国家重点实验室

  • 摘要
    大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑。针对K-means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K-means聚类算法。基于LSH对抽样过程进行优化,提出了数据组构建算法LSH-G,将大型数据集合理划分为子数据组,并对数据集中的噪声点进行有效删除;基于LSH-G算法优化密度偏差抽样(DBS)算法中的子数据组划分过程,提出了数据组抽样算法LSH-GD,使样本集能更真实地反映原始数据集的分布规律;在此基础上,通过K-means算法对生成的样本集进行聚类,实现较低时间复杂度情况下从大型数据集中高效挖掘有效数据。实验结果表明:由10个AND操作与8个OR操作组成的级联组合为最优级联组合,得到的类中心误差平方和(SSEC)最小;在人工数据集上,与基于多层随机抽样(M-SRS)的K-means算法、基于DBS的K-means算法及基于网格密度偏差抽样(G-DBS)的K-means算法相比,基于LSH-GD的K-means算法在聚类准确性方面的平均提升幅度分别为56.63%、54.59%及25.34%,在聚类高效性方面的平均提升幅度分别为27.26%、16.81%及7.07%;在UCI标准数据集上,基于LSH-GD的K-means聚类算法获得的SSEC与CPU消耗时间(CPU-C)均为最优。
  • 关键词

    智慧矿山大型数据集K-means聚类局部敏感哈希噪声点筛选密度偏差抽样

  • 基金项目(Foundation)
    国家重点研发计划资助项目(2021YFB3201905);
  • 文章目录
    0 引言
    1 LSH基本理论
    2 基于LSH-GD的K-means算法
    2.1 基于LSH的数据组构建算法LSH-G
    2.2 基于LSH-G的数据组抽样算法LSH-GD
    3 实验分析
    3.1 实验准备
    3.2 最优级联组合实验
    3.3 基于人工数据集的算法准确性实验
    3.4 基于人工数据集的算法高效性实验
    3.5 基于标准数据集的算法性能验证实验
    3.6 实验结果分析
    4 结论
  • 引用格式
    魏峰,马龙.面向大型数据集的局部敏感哈希K-means算法[J].工矿自动化,2023,49(03):53-62.DOI:10.13272/j.issn.1671-251x.2022080018.
相关问题

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联