LLM2D

摘要

arXiv:2504.00280v1 宣告类型: 新摘要: 本文探讨了在非平稳的基于视觉的强化学习环境中应用扩散策略的方法，特别是针对任务动态和目标随时间变化的环境。我们的工作基于在动态现实场景中遇到的实际挑战，如机器人装配线和自主导航，其中代理必须从高维度的视觉输入中适应控制策略。我们应用了扩散策略，该策略利用迭代的随机去噪来细化潜在的动作表示，并在包括Procgen和PointMaze在内的基准环境中进行测试。我们的实验表明，尽管计算需求增加，但扩散策略在PPO和DQN等标准RL方法中表现出更优的性能，实现了更高的平均和最大回报且具有更低的变异性。这些发现强调了该方法在不断变化的条件下生成连贯且上下文相关动作序列的能力，同时也指出了在处理极端非平稳性方面的进一步改进领域。