LLM2D

摘要

arXiv:2504.07896v1 交叉公告类型摘要：无监督零样本强化学习（RL）已成为预训练行为基础模型（BFMs）的强大范式，使代理能够以零样本的方式（即，在没有额外的测试时学习或规划的情况下）解决通过奖励函数指定的广泛下游任务。这通过在学习自监督任务嵌入的同时学习相应的近最优行为来实现，并结合推理过程直接检索任何给定奖励函数的潜在任务嵌入及其相关策略。尽管取得了有前景的结果，但零样本策略往往由于无监督训练过程、嵌入和推理过程中的错误而不够最优。在本文中，我们专注于在短暂的在线与环境交互中快速适应策略，以在几轮交互中提高BFMs的零样本性能，同时在适应过程中避免性能下降。值得注意的是，我们proof了现有的BFMs学习了一组包含比其推理过程识别的更优策略的技能，这使它们适用于快速适应。受此观察的启发，我们提出了基于actor-critic和仅基于actor的快速适应策略，这些策略在预训练BFM的任务嵌入低维空间中搜索，以快速提高任何下游任务中零样本策略的性能。值得注意的是，我们的方法缓解了在微调预训练的RL模型时通常观察到的初始“遗忘”阶段。我们在四个最先进的零样本RL方法在多个导航和运动学域上评估了我们的快速适应策略。结果显示，它们在几轮实验中将零样本性能提高了10-40%，并优于现有的基线方法。