LLM2D

摘要

arXiv:2410.10212v2 公告类型：替换摘要：公交车停站控制是一种广泛采用的策略，用于维持公交车系统的稳定性和提高其运营效率。传统的基于模型的方法通常面临着公交车状态预测和乘客需求估计准确性较低的挑战。相比之下，强化学习（RL）作为一种数据驱动的方法，在制定公交停站策略方面展现了巨大的潜力。RL 确定最优控制策略以最大化累积奖励，这反映了整体控制目标。然而，在现实任务中将稀疏且延时的控制目标转化为密集且实时的奖励以供 RL 使用是一项挑战，通常需要大量的手动试验与错误调整。鉴于此，本研究通过利用大型语言模型（LLMs）的上下文学习和推理能力，引入了一种自动奖励生成范式。这种新的范式称为增强 RL，其中包括几个基于 LLM 的模块：奖励初始化器、奖励调整器、性能分析器和奖励精炼器。这些模块协同工作，根据指定的基于 RL 的任务的训练和测试结果的反馈，初始化并逐步改进奖励函数。由 LLM 生成的有效奖励函数被筛选出来，以确保 RL 剂型在迭代过程中的稳定性能进步。为评估所提出的增强 RL 范式的可行性，将其应用于广泛变化的公交车停站控制场景，包括不同的公交线路、站点和乘客需求。结果表明，所提出的范式相较于传统的 RL 策略、基于 LLM 的控制器、基于物理反馈的控制器和基于优化的控制器，具备优越性、泛化能力和鲁棒性。本研究揭示了 LLM 在各种智能交通应用中巨大潜力。