LLM2D

摘要

arXiv:2505.07049v1 说明类型: 新摘要: 我们提出了DialogueReason，一种揭示单人推理模型中丢失的角色的推理范式，旨在提升推理过程的多样性和连贯性。基于强化学习的大规模推理模型的最新进展已经展示了令人印象深刻的长链推理能力和在数学和科学基准测试中的高表现。然而，这些推理模型主要依赖单人推理方式，这往往限制了推理多样性和连贯性，经常重复固定的策略或表现出不必要的注意力转移。我们的工作包括对单人推理模式的分析以及基于对话的推理方法的发展。我们首先引入了Compound-QA任务，该任务将多个问题串联成一个提示，用于评估推理的多样性和连贯性。我们的分析表明，Compound-QA揭示了单人推理的弱点，这不仅体现在定量指标上，还体现在定性的推理追踪中。基于分析，我们提出了一种基于对话的推理方法，称为DialogueReason，该方法围绕代理、环境和交互构建。使用基于规则的奖励进行PPO训练，我们对开源大语言模型（Qwen-QWQ和Qwen-Base）进行训练，使其采用对话推理。我们在MATH、AIME和GPQA数据集上评估训练后的模型，结果显示，在更复杂的复合问题下，对话推理模型的表现优于单人模型。此外，我们讨论了基于对话的推理如何增强可解释性，促进更直观的人机交互，并启发多代理系统设计的进步。