LLM2D
新新闻:系统-2微调以实现稳健的新知识整合
$\textit{New News}$: System-2 Fine-tuning for Robust Integration of New Knowledge
作者: Core Francisco Park, Zechen Zhang, Hidenori Tanaka
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01812v1

摘要

arXiv:2505.01812v1 交叉公告类型 摘要:人类和智能动物可以轻松地内化新信息(“新闻”)并准确提取这些信息对执行下游任务的含义。虽然大型语言模型(LLMs)可以通过上下文学习(ICL)在新闻明确作为上下文的情况下实现这一点,但微调对于在权重中巩固学习仍然具有挑战性。本文中,我们介绍了$\textit{New News}$数据集,该数据集由跨多个领域(数学、编程、发现、排行榜、事件)的假设但合理的新闻组成,并配有依赖于理解并内化新闻的下游评估问题。我们首先在我们的新闻数据集上展示了从天真微调到上下文学习(FT-ICL缺口)之间的巨大差距。为了解决这一差距,我们探索了一套自博弈数据生成协议——改写、推论和Self-QAs,旨在在没有上下文的情况下从模型中的知识提炼到模型的权重中,我们称其为$\textit{System-2 微调}$(Sys2-FT)。我们使用Qwen 2.5家族的模型系统地评估了ICL和Sys2-FT在数据领域和模型规模上的性能。我们的结果表明,Sys2-FT的Self-QA协议显著提高了模型在权重中对新闻的学习。此外,我们发现$\textit{上下文阴影效应}$,即使用新闻进行训练$\textit{在上下文中}$,随后再进行改写或Q&A会降低对新闻学习的效果。最后,我们展示了Sys2-FT出现的一种初步扩展规律。