LLM2D

摘要

arXiv:2410.14166v2 宣告类型: replace-cross 摘要: 有趣的是，LLMs 在一些人类觉得琐碎的任务上仍然难以应对，例如，在单词 "strawberry" 中统计字母 r 的数量。关于LLMs 在简单基于单词的计数问题上的缺陷，有一些流行的猜想（例如，分词、架构和训练数据），都持有这样的信念：这种失败源于模型的预训练，所以很可能是部署时不可避免的。在本文中，我们精心设计了多个评估设置来调查流行猜想的有效性。同时，我们测量了专门化LLMs 在高级数学和编码推理能力向简单计数任务的迁移程度。尽管专门化LLMs 在计数问题上也存在困难，但我们发现关于LLMs 本身固有的缺陷的猜想是无效的，并进一步寻找从LLMs 中引发有助于计数任务的知识和能力的机会。与通常用来提高新任务或挑战性任务性能的微调和上下文学习策略相比，我们展示出参与推理是最稳健和高效的方法来帮助LLMs 更准确地感知任务。我们希望我们的猜想验证设计能够为未来LLMs 关键失败模式的研究提供见解。基于将高级能力应用于更为简单的任务时遇到的挑战，我们呼吁更多关注模型能力的获取与评估，并强调在预训练时培养“先推理后响应”的意识的重要性。