LLM2D

摘要

在“自回归的余烬” (McCoy 等人，2023 年) 中，我们表明，几个大型语言模型 (LLM) 存在一些重要限制，这些限制归因于它们在下一个词预测中的起源。在这里，我们研究了这些问题是否在 OpenAI 的新系统 o1 中仍然存在，该系统与之前的 LLM 不同，因为它针对推理进行了优化。我们发现，在许多情况下，o1 的性能明显优于之前的 LLM，在常见任务的罕见变体（例如，从列表中每个词的第二个字母而不是第一个字母形成缩写词）上取得了特别大的改进。然而，尽管取得了这些定量上的改进，但 o1 仍然表现出我们在之前系统中观察到的相同定性趋势。具体来说，o1 与之前的 LLM 一样，对示例和任务的概率敏感，在高概率设置中比在低概率设置中表现更好，并且需要更少的“思考令牌”。这些结果表明，优化语言模型进行推理可以缓解，但可能无法完全克服语言模型的概率敏感性。