LLM2D
当语言模型被优化用于推理时,它是否仍然表现出自回归的迹象?对 OpenAI o1 的分析
When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1
作者: R. Thomas McCoy, Shunyu Yao, Dan Friedman, Mathew D. Hardy, Thomas L. Griffiths
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01792v1

摘要

在“自回归的余烬” (McCoy 等人,2023 年) 中,我们表明,几个大型语言模型 (LLM) 存在一些重要限制,这些限制归因于它们在下一个词预测中的起源。在这里,我们研究了这些问题是否在 OpenAI 的新系统 o1 中仍然存在,该系统与之前的 LLM 不同,因为它针对推理进行了优化。我们发现,在许多情况下,o1 的性能明显优于之前的 LLM,在常见任务的罕见变体(例如,从列表中每个词的第二个字母而不是第一个字母形成缩写词)上取得了特别大的改进。然而,尽管取得了这些定量上的改进,但 o1 仍然表现出我们在之前系统中观察到的相同定性趋势。具体来说,o1 与之前的 LLM 一样,对示例和任务的概率敏感,在高概率设置中比在低概率设置中表现更好,并且需要更少的“思考令牌”。这些结果表明,优化语言模型进行推理可以缓解,但可能无法完全克服语言模型的概率敏感性。