LLM2D

摘要

大型语言模型 (LLM) 在各种自然语言处理和推理任务中展现出非凡的能力。然而，它们在算术这一基础领域的表现仍然不尽如人意。在处理算术任务时，LLM 往往会记住特定的例子，而不是学习底层的计算逻辑，这限制了它们对新问题的泛化能力。本文提出了一种可组合算术执行框架 (CAEF)，它使 LLM 能够通过模拟图灵机来学习执行逐步计算，从而获得对计算逻辑的真正理解。此外，该框架具有高度可扩展性，允许组合学习到的运算符，从而显著降低学习复杂运算符的难度。在我们的评估中，CAEF 在 LLaMA 3.1-8B 模型上的七种常见数学运算中实现了近 100% 的准确率，有效地支持了包含高达 100 位数的操作数的计算，而在某些情况下，GPT-4o 在此级别上表现明显不足。