• 论文
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会
基于高置信度伪标签数据选择算法的临床事件抽取方法
  • 78
  • 作者

    罗媛媛杨春明李波张晖赵旭剑

  • 单位

    成都东软学院计算机与软件学院西南科技大学计算机科学与技术学院四川省大数据与智能系统工程技术研究中心西南科技大学数理学院

  • 摘要
    事件抽取是构建高质量事件知识图谱的前提。【目的】临床事件抽取过程中事件元素存在依赖关系,现有方法无法准确识别事件元素并组合为事件,且现有临床事件标记数据较少,给事件抽取任务带了极大的挑战。【方法】论文将临床事件抽取建模为实体识别模型,提出一种融合多特征的中文医学事件抽取方法:BERT-MCRF。该方法使用BERT构建模型的嵌入和特征提取部分,在CRF层加入多个字的滑动窗口特征,然后将BERT-MCRF作为半监督实验的基实验,提出一种高置信度伪标签数据选择算法作为筛选数据的条件,得到较高质量的300条数据与原始数据合并,最终构建了1700条语料,并重新训练模型。【结果】BERT-MCRF模型在三种属性实体上的整体F1值达到80.21%,比经典的BiLSTM-CRF模型提升15.11%;通过半监督思路重新训练的模型最终F1值达到81.56%,较原始BERT-MCRF提升了1.35%。
  • 关键词

    临床医学事件抽取实体识别多特征半监督学习高置信度伪标签选择算法

  • 文章目录
    1?引言
    2?相关工作
    3?融合多特征的中文医学事件抽取模型
    3.1?模型描述
    3.2 BERT进行特征提取
    3.3 CRF修正序列标注
    3.4 半监督Self-training方法
    4?数据集与实验设置
    4.1?数据集与评价指标
    4.2?高置信度伪标签数据选择算法
    4.3?实验及参数设置
    4.4?实验结果与分析
    4.4.1?不同模型对比分析
    4.4.2?融合多特征的CRF对比分析
    4.4.3?融合多特征的CRF对比分析
    5?总结
  • 引用格式
    罗媛媛,杨春明,李波等.基于高置信度伪标签数据选择算法的临床事件抽取方法[J/OL].太原理工大学学报:1-14[2023-11-01].http://kns.cnki.net/kcms/detail/14.1220.N.20231031.1400.008.html
相关问题

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联