LLM2D

摘要

arXiv:2503.18980v1 类别: cross 摘要：探索仍然是强化学习中的一个关键挑战，因为现有的许多方法要么缺乏理论保证，要么在实际效果上不尽如人意。在本文中，我们介绍了CAE，这是一种轻量级算法，该算法通过重新利用标准深度强化学习算法中的价值网络来驱动探索，而不引入额外的参数。CAE 利用任何线性多臂老虎机技术，并结合合适的放大策略，能够实现证明性的亚线性后悔界和实际稳定性。值得注意的是，它易于实现，只需大约10行代码即可。在学习有效价值网络具有挑战性的复杂任务中，我们提出了CAE+，这是一种CAE的扩展，结合了辅助网络。这种扩展将参数数量增加了不到1%，同时保持了实现的简单性，仅增加了大约10行代码。实验结果表明，无论是CAE还是CAE+，在MuJoCo和MiniHack上的表现都超过了最先进的基线，填补了理论严谨性和实际效率之间的差距。