LLM2D

摘要

基于文本的 AI 系统优化通常采用反馈循环机制，其中单个 LLM 生成对当前输出的自然语言评估，以改进下一次迭代的输出。然而，在这项工作中，我们通过实证表明，对于一个具有多个评估标准的实用且复杂的任务（代码生成），仅使用一个 LLM 评估器往往会导致生成的代码中的错误无法被检测到，从而导致评估错误，最终导致测试用例性能不佳。受此失败案例的启发，我们假设存在一个最佳评估策略，该策略在响应和基本事实之间进行评估采样。然后，我们从理论上证明，多个评估器的线性组合可以近似于该最佳策略。基于此洞察，我们提出了通过多个 LLM 评估器 (AIME) 进行 AI 系统优化。AIME 是一种评估协议，它使用多个 LLM，每个 LLM 独立地对不同的标准进行评估，然后通过串联将它们组合在一起。我们提供了一项广泛的实证研究，表明 AIME 在代码生成任务中优于基线方法，在 LeetCodeHard 和 HumanEval 数据集上，其错误检测率比单个 LLM 评估协议高出 62%，成功率高出 16%。我们还表明，评估器数量和使用哪些标准的选择并非微不足道，因为它可能会影响成功率，最高可达 12%。