LLM2D

摘要

当处理涉及大量状态的长期轨迹时，使用强化学习训练智能体十分困难。为了有效地解决这些学习问题，可以通过对状态进行聚类来构建抽象表示，从而减少状态数量。原则上，深度强化学习可以找到抽象状态，但端到端学习不稳定。我们提出了对比抽象学习来寻找抽象状态，假设轨迹中的连续状态属于同一个抽象状态。这些抽象状态可以是基本位置、达成的子目标、库存或健康状况。对比抽象学习首先通过对比学习构建状态表示的聚类，然后应用现代霍普菲尔德网络来确定抽象状态。对比抽象学习的第一阶段是自监督学习，对比学习迫使具有顺序邻近性的状态具有相似的表示。第二阶段使用现代霍普菲尔德网络将相似的状态表示映射到同一个不动点，即抽象状态。抽象级别可以通过确定现代霍普菲尔德网络的不动点数量来调整。此外，对比抽象学习不需要奖励，并有助于在广泛的下游任务中进行有效的强化学习。我们的实验证明了对比抽象学习在强化学习中的有效性。