LLM2D

摘要

arXiv:2502.11300v1 交叉类型公告摘要：多模态大型语言模型（MLLMs）因其在不同问题领域中的优越指令遵循和推理能力而闻名。然而，现有的基准测试主要集中在评估下游任务中的事实性和逻辑正确性，对评估MLLMs解释语用线索和跨模态关系的能力关注较少。为解决这一问题，我们使用连贯关系评估MLLMs在多模态话语分析（MDA）方面的能力。我们的基准测试CORDIAL涵盖了三个不同的话语领域中各种粒度水平的广泛连贯关系。通过使用不同提示策略对10多种MLLMs进行的实验，我们展示了即使是像Gemini 1.5 Pro和GPT-4o这样的顶级模型，也无法匹配基于简单分类器的基线模型的性能。本研究强调了超越基于相似性的指标，采用话语驱动框架来评估MLLMs的必要性，提供了对其能力的一种更细致的评估。基准测试和代码可在以下链接获取：https://github.com/aashish2000/CORDIAL。