LLM2D
为LLM代理训练过程奖励模型:实用框架与方向
Process Reward Models for LLM Agents: Practical Framework and Directions
作者: Sanjiban Choudhury
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10325v1

摘要

arXiv:2502.10325v1 类型: cross 摘要: 我们引入了Agent Process Reward Models(AgentPRM),这是一种简单的可扩展框架,用于通过交互不断训练LLM代理以提高性能。AgentPRM遵循一个轻量级的演员-评论家范式,通过蒙特卡洛展开计算奖励目标并优化策略。它对现有的RLHF管道所需的修改极少,使其易于大规模集成。除了AgentPRM之外,我们还提出了InversePRM,它可以从演示中直接学习过程奖励,而无需显式的结果监督。我们还探讨了探索、过程奖励塑形和模型预测推理等关键挑战和机会。我们在ALFWorld基准上进行了评估,显示使用AgentPRM和InversePRM训练的小型3B模型超越了强大的GPT-4o基线,并分析了测试时缩放、奖励作弊等问题。我们的代码可在以下地址获得:https://github.com/sanjibanc/agent_prm。