摘要
arXiv:2501.08925v2 宣布类型: 交叉替换
摘要:探索是自主提升和开放性问题解决的关键技能。然而,至今仍不清楚大型语言模型是否能在未知环境中有效地探索状态空间。本文将探索作为唯一目标,要求智能体提供能够提升未来收益的信息。在此框架下,我们认为仅衡量智能体的收益不足以进行公平评价,并基于最优可实现的回报将缺失的奖励分解为探索和exploitation(利用)组件。全面的实验结果显示,大多数模型在探索状态空间方面都遇到困难,不足的探索是不够的。我们观察到参数数量与探索性能之间存在正相关关系,较大的模型显示出更强的能力。此外,我们展示了我们的分解提供了由提示工程驱动的行为差异的见解,为探索性任务中性能的优化提供了有价值的工具。