摘要
在“自回归的余烬” (McCoy 等人,2023 年) 中,我们表明,几个大型语言模型 (LLM) 存在一些重要限制,这些限制归因于它们在下一个词预测中的起源。在这里,我们研究了这些问题是否在 OpenAI 的新系统 o1 中仍然存在,该系统与之前的 LLM 不同,因为它针对推理进行了优化。我们发现,在许多情况下,o1 的性能明显优于之前的 LLM,在常见任务的罕见变体(例如,从列表中每个词的第二个字母而不是第一个字母形成缩写词)上取得了特别大的改进。然而,尽管取得了这些定量上的改进,但 o1 仍然表现出我们在之前系统中观察到的相同定性趋势。具体来说,o1 与之前的 LLM 一样,对示例和任务的概率敏感,在高概率设置中比在低概率设置中表现更好,并且需要更少的“思考令牌”。这些结果表明,优化语言模型进行推理可以缓解,但可能无法完全克服语言模型的概率敏感性。