LLM2D

摘要

arXiv:2502.12094v1 宣告类型: 新摘要: 近期研究表明，在推理过程中引入搜索可以显著提高语言代理的推理能力。一些方法可能会利用真实数据或依赖模型自身生成的反馈。搜索算法利用这一反馈来生产可更新探索和利用多种推理路径标准的值。在本研究中，我们探讨了如何利用搜索和模型的自我反馈来进行推理任务。首先，我们在数学推理过程中研究地面真值反馈和自我反馈之间的差异。其次，我们观察到将搜索技术应用于更复杂任务（如工具调用）时的局限性，并针对这些差距开发了针对特定任务的领域特定方法。我们的实验揭示了仅依赖自我反馈进行搜索时泛化方面的挑战。为了使搜索有效，要么需要访问地面真相，要么需要针对特定任务精心设计反馈机制。