LLM2D

摘要

arXiv:2504.19480v1 宣告类型: cross 摘要: 强化学习（RL）在车队协调问题中的决策制定潜力已经得到充分体现。然而，由于协调目标的不确定性、决策问题的复杂性以及手动设计中试错带来的耗时，找到一个表现良好的奖励函数来指导RL训练以解决复杂的车队协调问题仍然是一个挑战。本文正式定义了车队协调奖励设计问题（PCRDP），将基于RL的车队协调问题扩展到包含自动奖励函数生成。为了解决PCRDP，我们提出了一种基于大型语言模型（LLM）的车队协调奖励设计（PCRD）框架，该框架通过LLM驱动的初始化和迭代优化系统地自动化奖励函数的发现。在该方法中，LLM首先通过分析和初始奖励（AIR）模块基于环境代码和任务要求初始化奖励函数，然后通过进化模块根据训练反馈对其进行迭代优化。AIR模块引导LLM通过一系列思考加深其对代码和任务的理解，有效地减轻了代码生成中的幻觉风险。进化模块对奖励函数进行微调和重建，实现了训练中探索多样性和收敛稳定性的平衡。为了验证我们的方法，我们建立了长江三角洲交通运输网络模拟中的六个具有不同复杂度级别的挑战性协调场景。比较实验结果表明，使用PCRD生成的奖励函数的RL代理始终优于手工工程的奖励函数，在所有场景中的平均性能指标高出10%。