LLM2D

摘要

arXiv:2502.12018v2 通知类型: replace-cross 摘要：大型语言模型（LLMs）通过训练时间扩展实现了卓越的性能，而在测试时间进一步通过在推理期间进行有效的推理来增强其能力。然而，随着推理规模的增加，现有的测试时间扩展方法会遭受累积历史信息的问题，这不仅浪费了计算资源，还干扰了有效的推理。为了解决这个问题，我们观察到复杂的推理可以通过解决一系列独立且自包含的子问题来实现。这些子问题是本质上原子问题，具有类似马尔可夫过程的记忆无后效性。基于这一观察，我们提出了Thought原子（\our），其中每次状态转换包括将当前问题分解为基于依赖关系的有向无环图，并收缩其子问题，形成一个简化的问题，该问题保持与原始问题的答案等效性。这种答案保持能力使得迭代的\textit{分解-收缩}过程能够自然形成具有意义的马尔可夫推理过程。此外，这些原子状态可以无缝集成到现有的测试时间扩展方法中，使\our能够作为插件增强，以提高推理能力。在六个基准测试中的实验展示了\our作为独立框架和插件增强的有效性。值得注意的是，在应用到gpt-4o-mini时，\our取得了\textbf{80.6\%}的F1分数，超过了o3-mini的\textbf{3.4\%}和DeepSeek-R1的\textbf{10.6\%}。相关代码可在\href{https://github.com/qixucen/atom}{https://github.com/qixucen/atom}找到。