CrisisNLP-C:中文灾害数据集_中国煤炭行业知识服务平台

CrisisNLP-C:中文灾害数据集

作者

李泽荃张展张瑞新李靖
单位

华北科技学院应急管理部通信信息中心网络舆情处中国矿业大学（北京）能源与矿业学院
摘要

当灾害发生时,人们经常使用微博、微信等社交媒体发布文本内容,描述伤亡人员、被困人员、车辆受损及基础设施损坏等情况。如果及时有效地处理这些在线信息,构建相应的机器学习模型,对应急响应组织进行态势感知、舆情应对或者救援活动极为有用。然而,目前对于社交媒体信息的有效处理仍存在众多挑战,比如准确分类这些简短和非正式的文本数据。从根本上讲,这些任务均涉及到数据样本问题,特别是国内目前还缺乏人工标注的中文灾害数据。为此,论文收集了2018年发生的与3起自然灾害相关的微博文本数据,并按照多层级分类方法进行了人工标注。该数据集将有助于业界解决自然语言处理时缺少灾害数据样本的现状,为进一步完善灾害危机应对和舆情管理等提供支持。
关键词

自然语言处理自然灾害应急响应社交媒体
基金项目(Foundation)

国家重点研发计划项目(2018YFC0808306)；中央高校基本科研业务费资助项目(3142017105,3142018050)；