LLM2D

摘要

目前，在大多数仓库环境中，货物的堆积情况复杂，管理人员在控制货物的同时与仓库移动机器人的轨迹进行交互，传统的移动机器人无法很好地对货物和行人反馈正确的避障策略，为了在仓库环境中高效且友好地控制移动机器人完成避障任务，本文提出了一种基于仓库环境的深度强化学习移动机器人避障算法。首先，针对深度强化学习算法中价值函数网络学习能力不足的问题，基于行人交互改进了价值函数网络，通过行人角度网格提取行人之间的交互信息，并通过注意力机制提取单个行人的时间特征，从而学习得到当前状态和历史轨迹状态的相对重要性以及对机器人避障策略的联合影响，为后续多层感知机的学习提供了机会。其次，基于行人的空间行为设计了强化学习的奖励函数，对角度变化过大的状态进行惩罚，以达到舒适避障的要求；最后，通过仿真实验验证了该深度强化学习移动机器人避障算法在仓库复杂环境中的可行性和有效性。