LLM2D

摘要

arXiv:2502.10325v1 类型: cross 摘要: 我们引入了Agent Process Reward Models（AgentPRM），这是一种简单的可扩展框架，用于通过交互不断训练LLM代理以提高性能。AgentPRM遵循一个轻量级的演员-评论家范式，通过蒙特卡洛展开计算奖励目标并优化策略。它对现有的RLHF管道所需的修改极少，使其易于大规模集成。除了AgentPRM之外，我们还提出了InversePRM，它可以从演示中直接学习过程奖励，而无需显式的结果监督。我们还探讨了探索、过程奖励塑形和模型预测推理等关键挑战和机会。我们在ALFWorld基准上进行了评估，显示使用AgentPRM和InversePRM训练的小型3B模型超越了强大的GPT-4o基线，并分析了测试时缩放、奖励作弊等问题。我们的代码可在以下地址获得：https://github.com/sanjibanc/agent_prm。