LLM2D
基于指令微调的大型语言模型的零样本危机推文分类
Zero-Shot Classification of Crisis Tweets Using Instruction-Finetuned Large Language Models
作者: Emma McDaniel, Samuel Scheele, Jeff Liu
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00182v1

摘要

社交媒体帖子通常被视为灾难应对中宝贵的情报来源,并且在危机推文数据集上评估了预训练语言模型 (LLM) 之前的自然语言处理技术。我们评估了三个商业大型语言模型(OpenAI GPT-4o、Gemini 1.5-flash-001 和 Anthropic Claude-3-5 Sonnet)在对短社交媒体帖子进行零样本分类方面的能力。在一个提示中,要求模型执行两个分类任务:1) 识别帖子在人道主义背景下是否具有信息性;2) 对帖子进行排名,并提供与 16 种可能的人道主义类别相关的概率。被分类的帖子来自合并的危机推文数据集 CrisisBench。结果使用宏观、加权和二元 F1 分数进行评估。信息性分类任务通常在没有额外信息的情况下表现更好,而对于人道主义标签分类,提供推文被挖掘时发生的事件,则会带来更好的性能。此外,我们发现模型在不同数据集上的性能差异显著,这引发了关于数据集质量的疑问。