LLM2D

摘要

预训练已在提升下游任务的准确性和加速收敛方面展现出显著优势，但这些优势背后的确切原因仍不清楚。为此，我们提出从全新的博弈论视角定量且明确地解释预训练对下游任务的影响，这也为深度神经网络 (DNN) 的学习行为提供了新的见解。具体而言，我们提取并量化了预训练模型编码的知识，并进一步跟踪此类知识在微调过程中的变化。有趣的是，我们发现只有少量预训练模型的知识被保留用于下游任务的推断。然而，这种保留的知识对于从头开始训练的模型来说非常难学。因此，借助这种专门学习的、有用的知识，从预训练微调的模型通常比从头开始训练的模型表现更好。此外，我们发现预训练可以引导微调模型更直接、更快地学习下游任务的目标知识，这解释了微调模型收敛速度更快的原因。