LLM2D

摘要

arXiv:2504.20708v1 类型: cross 摘要：大型语言模型（LLMs）利用逐步推理来解决复杂问题。标准评估实践涉及生成完整的推理痕迹，并评估最终答案的正确性。在本文中，我们挑战依赖最终答案的问题，提出了以下两个问题：最终答案是否可靠地代表了模型的最佳结论？是否存在不同的推理路径能产生不同的结果？为了回答这些问题，我们分析了中间推理步骤，称之为子思考，并提出了基于我们发现的方法。我们的方法涉及根据语言线索将推理痕迹分割成序列化的子思考。我们首先提示模型从每个中间子思考的终点生成续写。我们从每个起始不同子思考的完成续写中提取潜在答案。我们发现，通过选择频率最高的答案（众数）来聚合这些答案，通常比仅依赖原始完整痕迹中得出的答案具有显著更高的准确性。分析从不同子思考中得出的答案的一致性揭示了与模型的信心和正确性相关的特征，这表明可以识别出不可靠的答案。我们在各种LLMs和具有挑战性的数学推理数据集中（AIME2024和AIME2025）的实验表明，一致性准确率改进是始终存在的，分别达到13%和10%。实现细节可在以下链接获取：https://github.com/hammoudhasan/SubthoughtReasoner。