LLM2D
Home
Arxiv
返回列表
从数据中学习游戏的潜在规则:一个象棋故事
Learning the Latent Rules of a Game from Data: A Chess Story
作者:
Ben Fauber
发布日期:
10/4/2024
arXiv ID:
oai:arXiv.org:2410.02426v1
摘要
我们证明了具有数百万参数的小型预训练基础生成语言模型可以从与过程相关的数据中学习过程的潜在规则。受斯蒂芬·茨威格的中篇小说“象棋小说”(英文名为“皇家游戏”)的启发,我们展示了 2800 万和 1.25 亿参数的预训练基础小型语言模型 (SLM) 可以使用 1000 到 100 万个例子进行指令微调,以学习象棋规则,提出合法移动,并准确地解决象棋问题。我们还探讨了连续语言模型微调时期对改进结果的影响,并证明了通过增加指令微调示例数量来减少模型幻觉。
查看原文
下载 PDF