LLM2D

摘要

arXiv:2503.06343v2 宣告类型: replace-cross 摘要: 从高维观测流中提取相关信息是深度强化学习代理面临的核心挑战。演员-评论家算法为这一挑战增加了额外的复杂性，因为往往不清楚相同的观测信息对演员和评论家来说是否相关。有鉴于此，我们在此探索在针对策略算法中有效表示演员和评论家的原则。我们将研究重点放在理解演员和评论家是否受益于不同的表示，而不是共享的表示上。我们的主要发现是，当这些表示分离时，演员和评论家的表示系统地专门化于从环境中提取不同类型的信息——演员的表示往往侧重于与行动相关的信息，而评论家的表示则专门化于编码价值和动力学信息。我们进行了一项严格的实证研究，以了解不同的表示学习方法如何影响演员和评论家的专业化及其下游性能，包括样本效率和生成能力。最后，我们发现，在训练过程中，分离的评论家在探索和数据收集方面扮演了重要角色。我们的代码、训练模型和数据可以在 https://github.com/francelico/deac-rep 获得。