LLM2D

摘要

arXiv:2502.14922v1 交叉公告类型摘要：本文指出，在大型语言模型推理过程中，对上下文的误解可能会是一个重大问题，从小模型如 Llama3.2-3B-Instruct 到最先进的模型 DeepSeek-R1 均存在此类问题。例如，在短语 "10 dollars per kilo" 中，LLMs 可能不会识别 "per" 的意思为 "for each"，导致计算错误。我们引入了一种新颖的后训练方法 **Stick to the Facts (SIFT)** 来解决这一问题。SIFT 利用增加的推理时计算量将 LLMS 的推理与上下文紧密结合。SIFT 的核心是 *Sticker*，它是由模型本身生成的，用于明确强调上下文中的关键信息。通过精心设计的 Sticker，SIFT 能生成两种预测——一种来源于原始查询，另一种来源于增加了 Sticker 的查询。如果两者不同，SIFT 会通过 *前向* 优化（以更好地使提取的事实与查询对齐）和 *逆向* 生成（以符合模型固有的倾向）逐步精炼 Sticker，从而产生更忠实的推理结果。针对不同规模和基准（例如 GSM8K、MATH-500）的多种模型的研究显示，SIFT 持续提升了性能表现。值得注意的是，SIFT 将 DeepSeek-R1 在 AIME2024 上的 pass@1 准确率从 78.33% 提高到了 **85.67%**，在开源社区中确立了新的最佳表现。代码可在 https://github.com/zhijie-group/SIFT 获得。