LLM2D

摘要

arXiv:2505.08189v1 类型: cross 摘要：尽管强化学习（RL）代理在明确环境中非常有效，但由于它们依赖于试错互动，它们往往难以将其学到的政策泛化到动态环境中。最近的工作探讨了通过策略优化指导或先验知识应用大规模语言模型（LLMs）或视觉语言模型（VLMs）来提高RL代理的泛化能力。然而，这些方法通常在RL代理和基础模型之间缺乏无缝协调，导致在不熟悉环境中做出不合理决策，并且存在效率瓶颈。充分利用基础模型的推理能力、增强RL代理的快速响应能力，并加强两者之间的交互以形成双系统仍然是一个有待解决的科学问题。为了应对这一问题，我们借鉴了Kahneman的快速思考系统（System 1）和慢思考系统（System 2）的理论，表明平衡直觉和深入推理可以在复杂世界中实现敏捷的决策。在本研究中，我们提出了一种双系统自适应决策框架（DSADF），结合了两个互补的模块：System 1，包括一个RL代理和一个用于快速和直观决策的记忆空间，以及由VLM驱动的System 2，进行深入和分析性的推理。DSADF通过结合两个系统的优势，实现了高效的自适应决策。在视频游戏环境Crafter和Housekeep中的实证研究显示了我们所提方法的有效性，展示了在新任务和已知任务方面决策能力的显著提升。