LLM2D

摘要

arXiv:2501.19400v1 声明类型: cross 摘要: 在上下文强化学习(ICRL)代表了一种有望通过尝试和错误的互动在推理时学习通用代理的前景模型，类似于大型语言模型如何根据上下文进行调整，但其重点在于奖励最大化。然而，ICRL在玩具任务和单一领域设置之外的可扩展性仍然存在开放性的挑战。在本文中，我们介绍了扩展ICRL的第一步，通过引入一种固定但跨领域的模型，该模型可以通过在上下文中的强化学习来学习行为。我们的结果表明，算法蒸馏是一种旨在促进ICRL的框架，比专家蒸馏提供了构建多功能动作模型更具吸引力且更具竞争力的选择。这些发现突显了ICRL作为通用决策系统可扩展方法的潜力。代码将在https://github.com/dunnolab/vintix发布。