LLM2D

摘要

arXiv:2502.15027v1 交互类型: 横向研究摘要：现有的基准测试并没有检测大型多模态模型（LMMs）与人类用户的交互智能，这对开发通用人工智能助手至关重要。我们设计了一个交互框架 InterFeedback，可以应用于任何 LMM 和数据集，以自主评估这一能力。在此基础上，我们引入了 InterFeedback-Bench，它使用两个代表性数据集 MMMU-Pro 和 MathVerse 评估交互智能，测试了 10 种不同的开源 LMMs。此外，我们还提出了 InterFeedback-Human，这是一个新收集的包含 120 个案例的数据集，专门用于手动测试领先模型（如 OpenAI-o1 和 Claude-3.5-Sonnet）的交互性能。我们的评估结果显示，即使是最先进的 LMM（如 OpenAI-o1）也能通过少于 50% 的人类反馈来修正其结果。我们的研究发现表明需要方法来增强 LMMs 从反馈中理解和受益的能力。