LLM2D
大型语言模型能帮助多模态语言分析吗?MMLA:一个综合基准
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
作者: Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Jinchao Zhang, Jie Zhou, Haige Zhu
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.16427v1

摘要

arXiv:2504.16427v1 宣告类型:交叉 摘要:多模态语言分析是一个快速发展的领域,它利用多种模态来增强对人类对话表达背后的高层次语义的理解。尽管其重要性不言而喻,但很少有研究探讨多模态大型语言模型(MLLMs)理解认知级语义的能力。在本文中,我们介绍了MMLA,这是一种专门设计来填补这一空白的综合性基准。MMLA包含超过61,000个来自排练场景和现实场景的多模态表达,涵盖了多模态语义的六个核心维度:意图、情感、对话行为、情绪、说话风格和沟通行为。我们使用三种方法(零样本推理、监督微调和指令微调)评估了八种主流的大规模语言模型和多模态大型语言模型。广泛的实验表明,即使经过微调的模型也只能达到约60%~70%的准确率,突显了当前MLLMs在理解复杂人类语言方面的局限性。我们认为MMLA将为探索多模态语言分析中大型语言模型的潜力提供坚实的基础,并为推进这一领域提供宝贵的资源。相关数据集和代码已开源,可在 https://github.com/thuiar/MMLA 获得。