融合LDA和GloVe模型的病症文本聚类算法_中国煤炭行业知识服务平台

融合LDA和GloVe模型的病症文本聚类算法

作者

吴迪赵玉凤
单位

河北工程大学信息与电气工程学院
摘要

针对隐含狄利克雷分布（LDA）模型特征提取时忽略语义信息的问题，提出一种融合LDA和全局文本表示（GloVe）模型的病症文本聚类算法LG＆K-Medoide。首先，利用LDA对病症文本数据建模，采用JS（Jensen-Shannon）距离计算文本相似度；其次，利用GloVe对病症文本数据建模获取词向量，根据病症词性贡献度，对词向量权重进行标注，采用余弦距离计算基于GloVe建模加权的文本相似度；最后，将两种相似度进行结合，改进距离公式，实现K-Medoide聚类。实验结果表明，LG＆K-Medoide算法较基于LDA,LDA+TF-IDF,LDA+Word2Vec模型的聚类算法具有较高的精度。
关键词

病症文本LDAGloVe相似度结合聚类
基金项目(Foundation)

河北省自然科学基金资助项目（F2020402003,F2019402428）；
文章目录

1 问题定义
2 融合LDA和GloVe模型的病症文本聚类算法
2.1 病症文本数据预处理
2.2 LDA&GloVe建模
2.2.1 LDA文本相似性度量
2.2.2 GloVe文本相似性度量
2.3 融合LDA和GloVe模型的相似度结合文本聚类
3 实验与结果分析
3.1 融合LDA和GloVe模型的相似度结合文本聚类
3.2 聚类评价指标
3.3 困惑度测试
3.4 融合系数λ值测试
3.5 准确率测试
3.6 F1值测试
4 结论
引用格式

吴迪,赵玉凤.融合LDA和GloVe模型的病症文本聚类算法[J].河北工程大学学报(自然科学版),2022,39(01):92-98.