摘要
当灾害发生时,人们经常使用微博、微信等社交媒体发布文本内容,描述伤亡人员、被困人员、车辆受损及基础设施损坏等情况。如果及时有效地处理这些在线信息,构建相应的机器学习模型,对应急响应组织进行态势感知、舆情应对或者救援活动极为有用。然而,目前对于社交媒体信息的有效处理仍存在众多挑战,比如准确分类这些简短和非正式的文本数据。从根本上讲,这些任务均涉及到数据样本问题,特别是国内目前还缺乏人工标注的中文灾害数据。为此,论文收集了2018年发生的与3起自然灾害相关的微博文本数据,并按照多层级分类方法进行了人工标注。该数据集将有助于业界解决自然语言处理时缺少灾害数据样本的现状,为进一步完善灾害危机应对和舆情管理等提供支持。