LLM2D

摘要

arXiv:2501.02481v3 Announce Type: replace-cross 摘要：人类依赖于对事物的高层次理解，即元表示，来进行抽象推理。在复杂的认知任务中，这些元表示帮助个体从经验中抽象出普遍规则。然而，从高维观测构建这样的元表示仍然是强化学习（RL）代理的一个长期挑战。例如，即使是对同一任务进行了充分训练的代理，也常常无法泛化到任务的细微变化，比如背景颜色的变化，而人类可以轻松应对。在本文中，我们从理论上研究元表示如何贡献于RL代理的泛化能力，证明了从高维观测学习元表示可以增强代理在不同环境下的泛化能力。我们进一步假设，代理之间的深度互学（DML）有助于它们学习捕捉任务本质的元表示。实验证据强烈支持了我们的理论和假设。总体而言，这项工作为深度强化学习的泛化提供了一个新的视角。