针对隐含狄利克雷分布(LDA)模型特征提取时忽略语义信息的问题,提出一种融合LDA和全局文本表示(GloVe)模型的病症文本聚类算法LG&K-Medoide。首先,利用LDA对病症文本数据建模,采用JS(Jensen-Shannon)距离计算文本相似度;其次,利用GloVe对病症文本数据建模获取词向量,根据病症词性贡献度,对词向量权重进行标注,采用余弦距离计算基于GloVe建模加权的文本相似度;最后,将两种相似度进行结合,改进距离公式,实现K-Medoide聚类。实验结果表明,LG&K-Medoide算法较基于LDA,LDA+TF-IDF,LDA+Word2Vec模型的聚类算法具有较高的精度。
1 问题定义
2 融合LDA和GloVe模型的病症文本聚类算法
2.1 病症文本数据预处理
2.2 LDA&GloVe建模
2.2.1 LDA文本相似性度量
2.2.2 GloVe文本相似性度量
2.3 融合LDA和GloVe模型的相似度结合文本聚类
3 实验与结果分析
3.1 融合LDA和GloVe模型的相似度结合文本聚类
3.2 聚类评价指标
3.3 困惑度测试
3.4 融合系数λ值测试
3.5 准确率测试
3.6 F1值测试
4 结论
主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会