LLM2D
表示收敛:互 ++; user 纠正一下,应该是“互相蒸馏实际上是正则化的一种形式”
Representation Convergence: Mutual Distillation is Secretly a Form of Regularization
作者: Zhengpeng Xie, Jiahang Cao, Qiang Zhang, Jianxiong Zhang, Changwei Wang, Renjing Xu
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2501.02481v4

摘要

arXiv:2501.02481v4 宣告类型: replace-cross 摘要: 在本文中,我们认为强化学习策略之间的互 information 教练充当了一种隐含的正则化手段,防止它们对不相关信息特征过度拟合。我们强调了两个关键贡献:(a) 理论上,首次证明增强策略对不相关信息特征的鲁棒性可以提高泛化性能。(b) 实验上,我们展示了策略之间的互 information 教练有助于这种鲁棒性的增强,使得像素输入上出现不变表示的自发出现。总体而言,我们的发现挑战了传统上认为信息转移仅仅是知识传递手段的观点,为深度强化学习中的泛化提供了一个新的视角。