摘要
arXiv:2502.15027v1 交互类型: 横向研究
摘要:现有的基准测试并没有检测大型多模态模型(LMMs)与人类用户的交互智能,这对开发通用人工智能助手至关重要。我们设计了一个交互框架 InterFeedback,可以应用于任何 LMM 和数据集,以自主评估这一能力。在此基础上,我们引入了 InterFeedback-Bench,它使用两个代表性数据集 MMMU-Pro 和 MathVerse 评估交互智能,测试了 10 种不同的开源 LMMs。此外,我们还提出了 InterFeedback-Human,这是一个新收集的包含 120 个案例的数据集,专门用于手动测试领先模型(如 OpenAI-o1 和 Claude-3.5-Sonnet)的交互性能。我们的评估结果显示,即使是最先进的 LMM(如 OpenAI-o1)也能通过少于 50% 的人类反馈来修正其结果。我们的研究发现表明需要方法来增强 LMMs 从反馈中理解和受益的能力。