LLM2D

摘要

arXiv:2504.18538v1 宣告类型: cross 摘要：模仿学习有望通过从专家演示中学习来使机器人具备多功能技能。然而，基于有限数据集训练的策略往往难以泛化到训练分布之外。在这项工作中，我们从信息理论和数据分布特性出发，提供了一种统一的观点来阐述模仿学习的泛化能力。我们首先表明，泛化差距可以通过以下两方面进行上限约束：(i) 中间表示的条件信息瓶颈 (ii) 模型参数与训练数据集之间的互信息。这种表征为模仿学习中有效的训练策略设计提供了理论指导，尤其是在确定是否冻结、微调或从头训练大型预训练编码器（例如视觉-语言模型或视觉基础模型）以实现更好的泛化时。此外，我们证明了从输入到输出的高条件熵会诱导更平坦的似然景观，从而降低泛化差距的上限。此外，这缩短了从尖锐局部极小值逃脱随机梯度下降 (SGD) 的时间，这可能在固定优化预算下增加达到全局极值的可能性。这些见解解释了为什么模仿学习往往在泛化方面表现出局限性，并强调了不仅仅扩大输入数据多样性的必要性，同时也需要在相同的输入下丰富输出标签的变异性的重要性。