LLM2D

摘要

arXiv:2504.13231v2 通知类型: replace-cross 摘要：在野火期间快速获取信息至关重要，但传统数据源反应迟缓且成本高昂。社交媒体可以提供实时更新，但提取相关见解仍然是一项挑战。我们提出了WildFireCan-MMD，这是一个新的多模态数据集，包含最近加拿大野火的X条帖子，并在十二个关键主题上进行了标注。我们评估了视觉-语言模型和自定义训练的分类器，结果显示，尽管零样本提示可以快速部署，但在有标注数据的情况下，简单的训练模型仍然优于它们。我们表现最好的基于变压器的微调模型达到了83%的f分数，比GPT-4高出23%。作为用例，我们展示了该模型如何用于揭示野火期间的动向。我们的研究结果强调了定制数据集和任务特定训练的持久重要性。重要的是，这样的数据集应该是本地化的，因为灾害响应的需求在不同地区和背景下各不相同。