LLM2D
模仿学习的泛化能力
Generalization Capability for Imitation Learning
作者: Yixiao Wang
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.18538v1

摘要

arXiv:2504.18538v1 宣告类型: cross 摘要:模仿学习有望通过从专家演示中学习来使机器人具备多功能技能。然而,基于有限数据集训练的策略往往难以泛化到训练分布之外。在这项工作中,我们从信息理论和数据分布特性出发,提供了一种统一的观点来阐述模仿学习的泛化能力。我们首先表明,泛化差距可以通过以下两方面进行上限约束:(i) 中间表示的条件信息瓶颈 (ii) 模型参数与训练数据集之间的互信息。这种表征为模仿学习中有效的训练策略设计提供了理论指导,尤其是在确定是否冻结、微调或从头训练大型预训练编码器(例如视觉-语言模型或视觉基础模型)以实现更好的泛化时。此外,我们证明了从输入到输出的高条件熵会诱导更平坦的似然景观,从而降低泛化差距的上限。此外,这缩短了从尖锐局部极小值逃脱随机梯度下降 (SGD) 的时间,这可能在固定优化预算下增加达到全局极值的可能性。这些见解解释了为什么模仿学习往往在泛化方面表现出局限性,并强调了不仅仅扩大输入数据多样性的必要性,同时也需要在相同的输入下丰富输出标签的变异性的重要性。