LLM2D
WildFireCan-MMD:加拿大野火期间用户生成内容分类的数据集
WildFireCan-MMD: A Multimodal Dataset for Classification of User-Generated Content During Wildfires in Canada
作者: Braeden Sherritt, Isar Nejadgholi, Marzieh Amini
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2504.13231v2

摘要

arXiv:2504.13231v2 通知类型: replace-cross 摘要:在野火期间快速获取信息至关重要,但传统数据源反应迟缓且成本高昂。社交媒体可以提供实时更新,但提取相关见解仍然是一项挑战。我们提出了WildFireCan-MMD,这是一个新的多模态数据集,包含最近加拿大野火的X条帖子,并在十二个关键主题上进行了标注。我们评估了视觉-语言模型和自定义训练的分类器,结果显示,尽管零样本提示可以快速部署,但在有标注数据的情况下,简单的训练模型仍然优于它们。我们表现最好的基于变压器的微调模型达到了83%的f分数,比GPT-4高出23%。作为用例,我们展示了该模型如何用于揭示野火期间的动向。我们的研究结果强调了定制数据集和任务特定训练的持久重要性。重要的是,这样的数据集应该是本地化的,因为灾害响应的需求在不同地区和背景下各不相同。