LLM2D

摘要

arXiv:2505.03792v1 声明类型: cross 摘要：使用强化学习（RL）在线微调视觉语言模型（VLM）代理展示了在动态环境中为代理提供多步骤、目标导向能力的潜力。然而，其开放式的文本动作空间和动作生成的非端到端性质给RL中的有效在线探索带来了重大挑战，例如探索空间的爆炸性增长。我们提出了一种新的在线微调方法——反事实软强化学习（CoSo），更适合VLM代理的文本输出空间。与先前方法将所有标记分配均匀的不确定性相比，CoSo 利用反事实推理来动态评估单个标记对后处理动作因果影响。通过优先探索对动作至关重要的标记，同时减少语义冗余或低影响标记的影响，CoSo 能够实现更精确和高效的在线展开过程。我们提供了理论分析，证明了CoSo 的收敛性和策略改进保证，并进行了广泛的实证评估支持CoSo的有效性。我们的结果涵盖了各种代理任务，包括Android设备控制、卡片游戏和具身AI，突显了其显著提高探索效率和持续性能提升的能力。代码可在 https://github.com/langfengQ/CoSo 获取。