LLM2D

摘要

arXiv:2501.02481v4 宣告类型: replace-cross 摘要: 在本文中，我们认为强化学习策略之间的互 information 教练充当了一种隐含的正则化手段，防止它们对不相关信息特征过度拟合。我们强调了两个关键贡献：(a) 理论上，首次证明增强策略对不相关信息特征的鲁棒性可以提高泛化性能。(b) 实验上，我们展示了策略之间的互 information 教练有助于这种鲁棒性的增强，使得像素输入上出现不变表示的自发出现。总体而言，我们的发现挑战了传统上认为信息转移仅仅是知识传递手段的观点，为深度强化学习中的泛化提供了一个新的视角。