LLM2D

摘要

我们证明了具有数百万参数的小型预训练基础生成语言模型可以从与过程相关的数据中学习过程的潜在规则。受斯蒂芬·茨威格的中篇小说“象棋小说”（英文名为“皇家游戏”）的启发，我们展示了 2800 万和 1.25 亿参数的预训练基础小型语言模型 (SLM) 可以使用 1000 到 100 万个例子进行指令微调，以学习象棋规则，提出合法移动，并准确地解决象棋问题。我们还探讨了连续语言模型微调时期对改进结果的影响，并证明了通过增加指令微调示例数量来减少模型幻觉。