LLM2D

摘要

指令遵循是大型语言模型 (LLM) 的一项关键能力。然而，最近的研究表明，LLM 在处理包含多个约束的指令时往往会遇到困难（例如，要求以“幽默的语气”创建社交媒体帖子，但“不带标签”）。尽管如此，大多数评估仅关注合成数据。为了解决这个问题，我们引入了 RealInstruct，这是一个旨在评估 LLM 遵循真实世界多约束指令能力的基准，它利用了真实用户向 AI 助手提出的查询。我们还研究了基于模型的评估作为一种成本效益高的替代方案，用于为这项任务进行人工标注。我们的研究结果表明，即使是专有的 GPT-4 模型也无法满足超过 21% 的指令中的至少一个约束，这突出了最先进模型的局限性。为了解决开源模型和专有模型之间的性能差距，我们提出了分解、批评和细化 (DeCRIM) 自我校正管道，该管道增强了 LLM 遵循约束的能力。DeCRIM 通过将原始指令分解为一组约束，并使用 Critic 模型来决定何时以及在何处需要对 LLM 的响应进行细化来工作。我们的结果表明，即使在弱反馈的情况下，DeCRIM 也能将 Mistral 在 RealInstruct 上的性能提高 7.3%，在 IFEval 上的性能提高 8.0%。此外，我们证明，通过强反馈，配备 DeCRIM 的开源 LLM 在两个基准测试中都能胜过 GPT-4。