LLM2D

摘要

arXiv:2504.08772v1 宣布类型: cross 摘要：在离线强化学习（RL）中，从固定数据集学习为那些实时与环境交互昂贵或存在风险的领域提供了一种有前景的解决方案。然而，为离线数据集设计密集的奖励信号需要大量的人力和专业领域知识。带有人类反馈的强化学习（RLHF）已成为一种替代方案，但由于需要人工参与的过程，它仍然是昂贵的，从而激发了自动奖励生成模型的兴趣。为了解决这个问题，我们提出了一种基于大型视觉-语言模型的奖励生成方法（RG-VLM），它利用LVLM的推理能力从离线数据生成奖励，而无需人工参与。RG-VLM 在长期任务上增强了泛化能力，并且可以无缝地与稀疏的奖励信号结合，以提高任务性能，展现了其作为辅助奖励信号的潜力。