LLM2D

摘要

少样本学习（ICL）是一种强大的技术，无需训练更新即可使语言模型执行复杂任务。先前的工作已经确定了提供的上下文示例数量与模型预测准确性之间存在很强的相关性。本文试图通过证明ICL近似于贝叶斯学习器来解释这种相关性。这种观点产生了一系列用于ICL的新型贝叶斯缩放定律。在使用不同大小的GPT-2模型进行的实验中，我们的缩放定律在准确性方面超过或匹配现有缩放定律，同时还为任务先验、学习效率和每个示例的概率提供了可解释的项。为了说明这种可解释的缩放定律所提供的分析能力，我们报告了旨在为现实世界安全对齐研究提供信息的受控合成数据集实验。在我们的实验方案中，我们使用SFT抑制不需要的现有模型能力，然后使用ICL尝试恢复该能力（多样本越狱）。然后，我们使用能力基准以及新的多样本越狱数据集对现实世界指令微调的LLM进行实验。在所有情况下，贝叶斯缩放定律都能准确预测ICL导致被抑制行为重新出现的条件，这揭示了训练后提高LLM安全性的无效性。