LLM2D

摘要

鉴于大型语言模型 (LLM) 的广泛采用和使用，对它们指令遵循能力进行灵活且可解释的评估至关重要。模型输出之间的偏好判断已成为事实上的评估标准，尽管它将复杂的多方面偏好提炼成单一排名。此外，由于人工标注速度慢且成本高，LLM 越来越被用于做出这些判断，但代价是可靠性和可解释性。在本研究中，我们提出了 TICK（带检查清单的目标指令评估），这是一种完全自动化的、可解释的评估协议，它使用 LLM 生成的、特定于指令的检查清单来构建评估。我们首先表明，给定一条指令，LLM 可以可靠地生成高质量的、定制的评估检查清单，将指令分解成一系列是/否问题。每个问题询问候选响应是否满足指令的特定要求。我们证明，与让 LLM 直接对输出进行评分相比，使用 TICK 会导致 LLM 判断与人类偏好之间完全一致的频率显着增加（46.4% $\to$ 52.2%）。然后，我们证明 STICK（Self-TICK）可用于通过自我完善和最佳 N 选择来提高多个基准的生成质量。STICK 在 LiveBench 推理任务上的自我完善导致绝对收益 +7.8%，而使用 STICK 的最佳 N 选择在真实世界指令数据集 WildBench 上获得了 +6.3% 的绝对改进。鉴于此，结构化的、多方面的自我改进被证明是进一步提升 LLM 能力的一种很有前景的方式。最后，通过向负责直接对 LLM 对 WildBench 指令的响应进行评分的人类评估者提供 LLM 生成的检查清单，我们显着提高了评估者间一致性（0.194 $\to$ 0.256）。