LLM2D

摘要

arXiv:2505.01440v1 类别: cross 摘要: 将人类专业知识与机器学习相结合对于要求高准确性和安全性的应用至关重要，例如自动驾驶。本研究介绍了交互式双深度Q网络（iDDQN），这是一种人机在环（Human-in-the-Loop, HITL）方法，通过直接将人类见解合并到强化学习（Reinforcement Learning, RL）训练过程中，来提升模型性能。我们提出的方法 iDDQN 修改了Q值更新方程，以整合人类和代理人的动作，建立了一种政策开发的协作方法。此外，我们还提出了一种离线评估框架，该框架模拟了代理人在没有人类干预的情况下的轨迹，以评估人类干预的有效性。在模拟的自动驾驶场景中的实证结果表明，iDDQN 在利用人类专业知识提升性能和适应性方面优于包括行为克隆（BC）、HG-DAgger、深度Q学习从示范（DQfD）以及纯因子RL在内的现有方法。