LLM2D
VEGAS: 向owards 可视化解释和grounded 基于现实的人工社会智能
VEGAS: Towards Visually Explainable and Grounded Artificial Social Intelligence
作者: Hao Li, Hao Fei, Zechao Hu, Zhengwei Yang, Zheng Wang
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02227v1

摘要

arXiv:2504.02227v1 社交智能查询(Social-IQ)作为评估模型社交智能水平的主要多模态基准。虽然当前解决方案在多项选择题(MCQ)准确率上取得了令人印象深刻的成就,但越来越多的证据显示,它们很大程度上或完全依赖于语言模态,忽视了视觉上下文。此外,封闭设定进一步阻碍了探索选择背后推理路径的正确性的能力。为了解决这些局限性,我们提出了可视觉解释和基于地面的合成社交智能(VEGAS)模型。作为生成型多模态模型,VEGAS利用开放式回答提供可解释的响应,从而增强推理路径的清晰度和评估。为实现基于视觉的回答,我们提出了一种新的采样策略,为模型提供更相关的视觉帧。然后,通过通用指令微调(GIFT)增强模型对这些帧的解释能力,旨在:i) 学习多模态-语言转换以掌握基本的情感社会特质,ii) 建立多模态联合推理能力。大量实验,包括模态消融、开放式评估和监督型MCQ评估,一致表明,VEGAS有效地利用视觉信息进行推理,产生正确且可信的答案。我们预计这项工作将为Social-IQ提供新的视角,并推动类似人类的社交AI的发展。