LLM2D
AIME:基于多语言模型评估器的 AI 系统优化
AIME: AI System Optimization via Multiple LLM Evaluators
作者: Bhrij Patel, Souradip Chakraborty, Wesley A. Suttle, Mengdi Wang, Amrit Singh Bedi, Dinesh Manocha
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03131v1

摘要

基于文本的 AI 系统优化通常采用反馈循环机制,其中单个 LLM 生成对当前输出的自然语言评估,以改进下一次迭代的输出。然而,在这项工作中,我们通过实证表明,对于一个具有多个评估标准的实用且复杂的任务(代码生成),仅使用一个 LLM 评估器往往会导致生成的代码中的错误无法被检测到,从而导致评估错误,最终导致测试用例性能不佳。受此失败案例的启发,我们假设存在一个最佳评估策略,该策略在响应和基本事实之间进行评估采样。然后,我们从理论上证明,多个评估器的线性组合可以近似于该最佳策略。基于此洞察,我们提出了通过多个 LLM 评估器 (AIME) 进行 AI 系统优化。AIME 是一种评估协议,它使用多个 LLM,每个 LLM 独立地对不同的标准进行评估,然后通过串联将它们组合在一起。我们提供了一项广泛的实证研究,表明 AIME 在代码生成任务中优于基线方法,在 LeetCodeHard 和 HumanEval 数据集上,其错误检测率比单个 LLM 评估协议高出 62%,成功率高出 16%。我们还表明,评估器数量和使用哪些标准的选择并非微不足道,因为它可能会影响成功率,最高可达 12%。