LLM2D

摘要

arXiv:2505.01812v1 交叉公告类型摘要：人类和智能动物可以轻松地内化新信息（“新闻”）并准确提取这些信息对执行下游任务的含义。虽然大型语言模型（LLMs）可以通过上下文学习（ICL）在新闻明确作为上下文的情况下实现这一点，但微调对于在权重中巩固学习仍然具有挑战性。本文中，我们介绍了$\textit{New News}$数据集，该数据集由跨多个领域（数学、编程、发现、排行榜、事件）的假设但合理的新闻组成，并配有依赖于理解并内化新闻的下游评估问题。我们首先在我们的新闻数据集上展示了从天真微调到上下文学习（FT-ICL缺口）之间的巨大差距。为了解决这一差距，我们探索了一套自博弈数据生成协议——改写、推论和Self-QAs，旨在在没有上下文的情况下从模型中的知识提炼到模型的权重中，我们称其为$\textit{System-2 微调}$（Sys2-FT）。我们使用Qwen 2.5家族的模型系统地评估了ICL和Sys2-FT在数据领域和模型规模上的性能。我们的结果表明，Sys2-FT的Self-QA协议显著提高了模型在权重中对新闻的学习。此外，我们发现$\textit{上下文阴影效应}$，即使用新闻进行训练$\textit{在上下文中}$，随后再进行改写或Q&A会降低对新闻学习的效果。最后，我们展示了Sys2-FT出现的一种初步扩展规律。