LLM2D

摘要

arXiv:2504.02227v1 社交智能查询(Social-IQ)作为评估模型社交智能水平的主要多模态基准。虽然当前解决方案在多项选择题(MCQ)准确率上取得了令人印象深刻的成就，但越来越多的证据显示，它们很大程度上或完全依赖于语言模态，忽视了视觉上下文。此外，封闭设定进一步阻碍了探索选择背后推理路径的正确性的能力。为了解决这些局限性，我们提出了可视觉解释和基于地面的合成社交智能(VEGAS)模型。作为生成型多模态模型，VEGAS利用开放式回答提供可解释的响应，从而增强推理路径的清晰度和评估。为实现基于视觉的回答，我们提出了一种新的采样策略，为模型提供更相关的视觉帧。然后，通过通用指令微调(GIFT)增强模型对这些帧的解释能力，旨在：i) 学习多模态-语言转换以掌握基本的情感社会特质，ii) 建立多模态联合推理能力。大量实验，包括模态消融、开放式评估和监督型MCQ评估，一致表明，VEGAS有效地利用视觉信息进行推理，产生正确且可信的答案。我们预计这项工作将为Social-IQ提供新的视角，并推动类似人类的社交AI的发展。