摘要
arXiv:2504.02450v3 公告类型:替换交叉
摘要:为了解决自动驾驶决策中互动不足和行为多样性不足的挑战,本文提出了一种认知分层代理用于推理与运动风格化(CHARMS)。通过利用 Level-k 游戏理论,CHARMS 通过包含强化学习预训练和监督微调的两阶段训练管道,捕捉到类似人类的推理模式。这使生成的模型能够表现出多样性和类似人类的行为,增强了其在复杂交通环境中的决策能力和交互准确性。在此基础上,我们进一步开发了一种场景生成框架,利用泊松认知层次理论通过泊松和二项式抽样控制不同类型驾驶风格的车辆分布。实验结果表明,CHARMS 能够作为自私车辆做出智能驾驶决策,并作为环境车辆生成多样且真实的驾驶场景。CHARMS 的代码发布在 https://github.com/chuduanfeng/CHARMS。