LLM2D
勾选所有选项:生成的清单改进大型语言模型评估和生成
TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation
作者: Jonathan Cook, Tim Rockt\"aschel, Jakob Foerster, Dennis Aumiller, Alex Wang
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03608v1

摘要

鉴于大型语言模型 (LLM) 的广泛采用和使用,对它们指令遵循能力进行灵活且可解释的评估至关重要。模型输出之间的偏好判断已成为事实上的评估标准,尽管它将复杂的多方面偏好提炼成单一排名。此外,由于人工标注速度慢且成本高,LLM 越来越被用于做出这些判断,但代价是可靠性和可解释性。在本研究中,我们提出了 TICK(带检查清单的目标指令评估),这是一种完全自动化的、可解释的评估协议,它使用 LLM 生成的、特定于指令的检查清单来构建评估。我们首先表明,给定一条指令,LLM 可以可靠地生成高质量的、定制的评估检查清单,将指令分解成一系列是/否问题。每个问题询问候选响应是否满足指令的特定要求。我们证明,与让 LLM 直接对输出进行评分相比,使用 TICK 会导致 LLM 判断与人类偏好之间完全一致的频率显着增加(46.4% $\to$ 52.2%)。然后,我们证明 STICK(Self-TICK)可用于通过自我完善和最佳 N 选择来提高多个基准的生成质量。STICK 在 LiveBench 推理任务上的自我完善导致绝对收益 +7.8%,而使用 STICK 的最佳 N 选择在真实世界指令数据集 WildBench 上获得了 +6.3% 的绝对改进。鉴于此,结构化的、多方面的自我改进被证明是进一步提升 LLM 能力的一种很有前景的方式。最后,通过向负责直接对 LLM 对 WildBench 指令的响应进行评分的人类评估者提供 LLM 生成的检查清单,我们显着提高了评估者间一致性(0.194 $\to$ 0.256)。