LLM2D
CORDIAL:多模态大型语言模型能否有效地理解连贯关系?
CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships?
作者: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11300v1

摘要

arXiv:2502.11300v1 交叉类型公告 摘要:多模态大型语言模型(MLLMs)因其在不同问题领域中的优越指令遵循和推理能力而闻名。然而,现有的基准测试主要集中在评估下游任务中的事实性和逻辑正确性,对评估MLLMs解释语用线索和跨模态关系的能力关注较少。为解决这一问题,我们使用连贯关系评估MLLMs在多模态话语分析(MDA)方面的能力。我们的基准测试CORDIAL涵盖了三个不同的话语领域中各种粒度水平的广泛连贯关系。通过使用不同提示策略对10多种MLLMs进行的实验,我们展示了即使是像Gemini 1.5 Pro和GPT-4o这样的顶级模型,也无法匹配基于简单分类器的基线模型的性能。本研究强调了超越基于相似性的指标,采用话语驱动框架来评估MLLMs的必要性,提供了对其能力的一种更细致的评估。基准测试和代码可在以下链接获取:https://github.com/aashish2000/CORDIAL。