摘要
人道主义组织可以通过分析数据来发现趋势、收集汇总见解、管理安全风险、支持决策以及为宣传和资金提案提供信息,从而提高其有效性。然而,关于直接影响和与人道主义援助行动相关的暴力事件的数据并不容易获得。与人道主义视角一致的自动数据收集和基于自然语言处理的分类框架可以帮助弥合这一差距。在本文中,我们介绍了 HumVI——一个包含三种语言(英语、法语、阿拉伯语)新闻文章的数据集,这些文章包含不同类型暴力事件的实例,这些事件按其影响的人道主义部门进行分类,例如援助安全、教育、粮食安全、健康和保护。通过与数据支持的人道主义组织 Insecurity Insight 合作,我们获得了数据集的可靠标签。我们为数据集提供了多个基准,采用各种深度学习架构和技术,包括数据增强和掩码损失,以解决不同的任务相关挑战,例如领域扩展。该数据集可在 https://github.com/dataminr-ai/humvi-dataset 公开获取。