LLM2D

摘要

评估多模态、多轮对话的指令遵循能力具有挑战性。由于输入模型上下文中可能存在多个指令，因此该任务对于人工评分者来说非常耗时，我们发现基于大型语言模型的评判者会偏向于来自同一模型的答案。我们提出了 MMMT-IF，这是一个基于图像的多轮问答评估集，在问题之间增加了全局指令，约束了答案格式。这挑战了模型从长对话中检索分散的指令并在指令约束下进行推理的能力。所有指令都可通过代码执行客观地验证。我们引入了程序化指令遵循 ($\operatorname{PIF}$) 指标来衡量在执行推理任务时正确遵循指令的比例。$\operatorname{PIF-N-K}$ 指标集通过测量语料库中样本的比例来进一步评估鲁棒性，对于每个样本，至少有 K 个生成的模型响应中的 N 个实现 $\operatorname{PIF}$ 得分为 1。$\operatorname{PIF}$ 指标与人工指令遵循评分一致，显示出 60% 的相关性。实验表明，Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 的 $\operatorname{PIF}$ 指标从所有模型在第 1 轮的平均 0.81 下降到第 20 轮的 0.64。在所有轮次中，当每个响应重复 4 次 ($\operatorname{PIF-4-4}$) 时，GPT-4o 和 Gemini 仅在 $11%$ 的时间里成功地遵循所有指令。当所有指令也附加到模型输入上下文的末尾时，$\operatorname{PIF}$ 指标平均提高了 22.3 个点，这表明该任务的挑战不仅在于遵循指令，还在于检索分散在模型上下文中的指令。我们计划开源 MMMT-IF 数据集和指标计算代码。