LLM2D

摘要

arXiv:2504.16427v1 宣告类型：交叉摘要：多模态语言分析是一个快速发展的领域，它利用多种模态来增强对人类对话表达背后的高层次语义的理解。尽管其重要性不言而喻，但很少有研究探讨多模态大型语言模型（MLLMs）理解认知级语义的能力。在本文中，我们介绍了MMLA，这是一种专门设计来填补这一空白的综合性基准。MMLA包含超过61,000个来自排练场景和现实场景的多模态表达，涵盖了多模态语义的六个核心维度：意图、情感、对话行为、情绪、说话风格和沟通行为。我们使用三种方法（零样本推理、监督微调和指令微调）评估了八种主流的大规模语言模型和多模态大型语言模型。广泛的实验表明，即使经过微调的模型也只能达到约60%~70%的准确率，突显了当前MLLMs在理解复杂人类语言方面的局限性。我们认为MMLA将为探索多模态语言分析中大型语言模型的潜力提供坚实的基础，并为推进这一领域提供宝贵的资源。相关数据集和代码已开源，可在 https://github.com/thuiar/MMLA 获得。