• 论文
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会
融合LDA和GloVe模型的病症文本聚类算法
  • 作者

    吴迪赵玉凤

  • 单位

    河北工程大学信息与电气工程学院

  • 摘要

    针对隐含狄利克雷分布(LDA)模型特征提取时忽略语义信息的问题,提出一种融合LDA和全局文本表示(GloVe)模型的病症文本聚类算法LG&K-Medoide。首先,利用LDA对病症文本数据建模,采用JS(Jensen-Shannon)距离计算文本相似度;其次,利用GloVe对病症文本数据建模获取词向量,根据病症词性贡献度,对词向量权重进行标注,采用余弦距离计算基于GloVe建模加权的文本相似度;最后,将两种相似度进行结合,改进距离公式,实现K-Medoide聚类。实验结果表明,LG&K-Medoide算法较基于LDA,LDA+TF-IDF,LDA+Word2Vec模型的聚类算法具有较高的精度。

  • 关键词

    病症文本LDAGloVe相似度结合聚类

  • 基金项目(Foundation)
    河北省自然科学基金资助项目(F2020402003,F2019402428);
  • 文章目录

    1 问题定义
    2 融合LDA和GloVe模型的病症文本聚类算法
    2.1 病症文本数据预处理
    2.2 LDA&GloVe建模
    2.2.1 LDA文本相似性度量
    2.2.2 GloVe文本相似性度量
    2.3 融合LDA和GloVe模型的相似度结合文本聚类
    3 实验与结果分析
    3.1 融合LDA和GloVe模型的相似度结合文本聚类
    3.2 聚类评价指标
    3.3 困惑度测试
    3.4 融合系数λ值测试
    3.5 准确率测试
    3.6 F1值测试
    4 结论

  • 引用格式
    吴迪,赵玉凤.融合LDA和GloVe模型的病症文本聚类算法[J].河北工程大学学报(自然科学版),2022,39(01):92-98.
相关问题

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联