LLM2D

摘要

社交媒体帖子通常被视为灾难应对中宝贵的情报来源，并且在危机推文数据集上评估了预训练语言模型 (LLM) 之前的自然语言处理技术。我们评估了三个商业大型语言模型（OpenAI GPT-4o、Gemini 1.5-flash-001 和 Anthropic Claude-3-5 Sonnet）在对短社交媒体帖子进行零样本分类方面的能力。在一个提示中，要求模型执行两个分类任务：1) 识别帖子在人道主义背景下是否具有信息性；2) 对帖子进行排名，并提供与 16 种可能的人道主义类别相关的概率。被分类的帖子来自合并的危机推文数据集 CrisisBench。结果使用宏观、加权和二元 F1 分数进行评估。信息性分类任务通常在没有额外信息的情况下表现更好，而对于人道主义标签分类，提供推文被挖掘时发生的事件，则会带来更好的性能。此外，我们发现模型在不同数据集上的性能差异显著，这引发了关于数据集质量的疑问。