LLM2D
Commander-GPT:全面释放多模态大语言模型的讽刺检测能力
Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models
作者: Yazhou Zhang, Chunwang Zou, Bo Wang, Jing Qin
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18681v1

摘要

arXiv:2503.18681v1 交叉类型: 宣布 摘要:讽刺检测作为自然语言处理(NLP)领域的一项关键研究方向,已经引起了广泛的关注。传统讽刺检测任务通常集中于单一模态方法(例如,文本),但由于讽刺的隐含性和微妙性,这样的方法往往不能取得令人满意的结果。近年来,研究人员将讽刺检测的重点转向多模态方法。然而,有效地利用多模态信息来准确识别讽刺内容仍是一个值得进一步探索的挑战。利用多模态大型语言模型(MLLMs)的多种信息来源的强大集成处理能力,我们提出了一种创新的多模态Commander-GPT框架。受军事策略的启发,我们首先将讽刺检测任务分解为六个不同的子任务。一个中央指挥官(决策者)然后指派最适合的大型语言模型来解决每个具体的子任务。最终,每个模型的检测结果被聚合以识别讽刺。我们在MMSD和MMSD 2.0上进行了广泛实验,使用了四种多模态大型语言模型和六种提示策略。我们的实验表明,我们的方法取得了最先进的性能,F1分数提高了19.3%,且不需要微调或真实理由。