LLM2D

摘要

arXiv:2502.12018v1 宣布类型: cross 摘要：大规模语言模型（LLMs）通过训练时的扩展实现了卓越的性能，而在推理时的扩展进一步通过在推理过程中进行有效的推理来增强其能力。然而，随着推理规模的增加，现有的推理时扩展方法会遭受累积历史信息的影响，这不仅浪费了计算资源，还干扰了有效的推理。为了解决这一问题，我们观察到复杂的推理过程通常是通过解决一系列独立的子问题一步步完成的，每个子问题是自包含且可验证的。这些子问题本质上是原子问题，主要依赖于当前状态而非累积历史，类似于马尔可夫过程中的无记忆状态转移。基于这一观察，我们提出了Thought的原子（Atom of Thoughts，AoT），其中推理过程中的每一个状态转移包括将当前问题分解为基于依赖关系的有向无环图，并收缩其子问题，形成一个新的原子问题状态。这个逐步分解-收缩过程继续进行，直到达到可以直接解决的原子问题，从而自然实现了问题状态间的马尔可夫转换。此外，这些原子问题可以无缝集成到现有的推理时扩展方法中，使AoT能够作为一个插件增强器，提升推理能力。在六个基准上的实验表明，AoT无论是作为一个独立框架还是作为一个插件增强器都是有效的。值得注意的是，在HotpotQA上，当应用于gpt-4o-mini时，AoT取得了80.6%的F1分数，分别比o3-mini高出3.4%，比DeepSeek-R1高出10.6%。代码将在 https://github.com/qixucen/atom 可用。