摘要
arXiv:2501.02481v4 宣告类型: replace-cross
摘要: 在本文中,我们认为强化学习策略之间的互 information 教练充当了一种隐含的正则化手段,防止它们对不相关信息特征过度拟合。我们强调了两个关键贡献:(a) 理论上,首次证明增强策略对不相关信息特征的鲁棒性可以提高泛化性能。(b) 实验上,我们展示了策略之间的互 information 教练有助于这种鲁棒性的增强,使得像素输入上出现不变表示的自发出现。总体而言,我们的发现挑战了传统上认为信息转移仅仅是知识传递手段的观点,为深度强化学习中的泛化提供了一个新的视角。