• 论文
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会
网络空间安全领域实体识别的数据增强方法
  • 作者

    廉龙颖高传凯刘兴丽

  • 单位

    黑龙江大学信息管理学院黑龙江科技大学计算机与信息工程学院

  • 摘要
    针对网络空间安全领域标注数据成本高且难度大的问题,提出了数据增强改进方法。通过改进EDA算法,研究基于领域词典的同类型实体替换、实体保护的同词性替换、词性保护的随机插入以及语义保护的随机删除策略,采用单一策略和组合策略对小样本数据集进行数据扩充,利用BiLSTM-CRF模型进行实体识别验证。结果表明,单一策略及其组合策略能够增加数据集的规模,单一策略DER的F1值提升比例达38.18%,组合策略EPR+PRI的F1值提升比例达31.16%。该方法可以有效提升网络空间安全领域实体识别模型性能。
  • 关键词

    实体识别数据增强网络空间安全

  • 基金项目(Foundation)
    黑龙江省省属高等学校基本科研业务费项目(2022-KYYWF-0569);黑龙江省教育科学“十四五”规划2023年度重点课题(GJB1423098);
  • 文章目录

    0 引 言
    1 数据增强方法
    (1)基于领域词典的同类型实体替换策略DER(Dictionary entity replacement):
    (2)基于实体保护的同词性替换策略EPR(Entity part-of-speech replacement):
    (3)基于词性保护的随机插入策略PRI(Part-of-speech random insertion):
    (4)基于语义保护的随机删除策略SRD(Semanteme random deletion):
    2 实 验
    2.1 数据集
    2.2 对比实验及结果分析
    2.2.1 不同增强句数增强性能测试
    2.2.2 不同增强策略增强性能测试
    2.2.3 EDA改进策略增强性能测试
    3 结 论
  • 引用格式
    [1]廉龙颖,高传凯,刘兴丽.网络空间安全领域实体识别的数据增强方法[J].黑龙江科技大学学报,2024,34(04):655-660.
  • 相关文章
相关问题

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联