LLM2D

摘要

arXiv:2503.22575v1 交叉公告类型摘要：深度强化学习（DRL）是一种人工智能范式，其中智能体使用神经网络来学习在给定环境中采取哪些行动。DRL 最近因能够解决诸如驾驶模拟器、3D 机器人控制以及多人在线战斗竞技场视频游戏这样的复杂环境而受到了广泛关注。目前，大量的最先进的算法实现被用于训练这些智能体，如深度 Q 网络（DQN）和近端策略优化（PPO）等算法。然而，许多研究错误地假设相同的算法实现是一致的，因此是可互换的。在本文中，通过差异性测试的视角，我们研究了实现不一致性的影响范围，以及它们对实现性能的影响，以及在假设实现可互换的情况下先前研究结论的影响。我们差异性测试的结果显示，在测试的算法实现之间存在显著差异，表明这些实现并非可互换。特别是，在对 56 个游戏进行了五种 PPO 实现的测试后，三种实现中有两种在总试验中实现了 50% 的超人类性能，而另外两种实现则在总试验中仅实现了不到 15% 的超人类性能。作为细致的手动分析一部分，我们分析了实现的源代码，确定代码级不一致性是造成这些差异的主要原因。最后，我们复制了一项研究，并表明这种实现互换性的假设足以翻转实验结果。因此，这要求我们改变如何使用实现的方式。