摘要
arXiv:2505.03792v1 声明类型: cross
摘要:使用强化学习(RL)在线微调视觉语言模型(VLM)代理展示了在动态环境中为代理提供多步骤、目标导向能力的潜力。然而,其开放式的文本动作空间和动作生成的非端到端性质给RL中的有效在线探索带来了重大挑战,例如探索空间的爆炸性增长。我们提出了一种新的在线微调方法——反事实软强化学习(CoSo),更适合VLM代理的文本输出空间。与先前方法将所有标记分配均匀的不确定性相比,CoSo 利用反事实推理来动态评估单个标记对后处理动作因果影响。通过优先探索对动作至关重要的标记,同时减少语义冗余或低影响标记的影响,CoSo 能够实现更精确和高效的在线展开过程。我们提供了理论分析,证明了CoSo 的收敛性和策略改进保证,并进行了广泛的实证评估支持CoSo的有效性。我们的结果涵盖了各种代理任务,包括Android设备控制、卡片游戏和具身AI,突显了其显著提高探索效率和持续性能提升的能力。代码可在 https://github.com/langfengQ/CoSo 获取。