LLM2D

摘要

arXiv:2502.17666v2 传达类型: 替换-跨域摘要: 在这项工作中，我们探讨了在可扩展的离线情境化强化学习(Offline In-Context RL, ICRL)框架中整合强化学习(Reinforcement Learning, RL)方法的可能性。通过在超过150个源自GridWorld和MuJoCo环境的数据集中进行实验，我们展示了优化RL目标在各种数据集覆盖率、结构、专业知识水平和环境复杂性背景下，相比广泛认可的算法蒸馏(Algorithm Distillation, AD)基线方法，平均改善了约40%的性能。我们的结果还揭示出基于离线下强化学习的方法在各种情况下都优于在线方法，这些在线方法并非特别针对离线场景进行设计。这些发现强调了将学习目标与RL最大化奖励的目标对齐的重要性，并证明离线下强化学习在ICRL设置中是一个有前途的方向。