摘要
arXiv:2503.04530v2 宣布类型: 修订
摘要: 大型语言模型在推理方面表现出色,但经常依赖于链式思考提示,限制了其在需要更细致拓扑结构的任务中的性能。我们提出了SOLAR(大规模架构优化以推理),这是一个框架,能够动态优化链式思考(CoT)、树式思考(ToT)和图式思考(GoT)拓扑结构,以提高准确性和效率。我们的拓扑注释生成(TAG)系统自动化了数据集的创建、标注和难度分割,从而在训练后和测试时间性能方面表现出更强的效果。我们还提出了一种基于课程学习的拓扑扩展方法(Topological Scaling),该方法适应性地将训练后和推理扩展结合到每个任务中。在MATH和GSM8K上,SOLAR带来了显著的提升:拓扑调整提高了5%的准确性,拓扑激励提高了9%的准确性,混合扩展提高了10.02%的准确性,同时将响应长度减少了超过5%,降低了推理延迟。为了进一步提高效率,我们引入了一种多任务拓扑奖励模型(M-TRM),该模型能够在单次通过中选择出最佳的推理拓扑和最终答案,从而消除多个单一任务的TRMs。值得注意的是,M-TRM还超越了所有单一任务的TRMs,提高了10%的准确性,并提高了9%的相关性。总体而言,SOLAR确立了可扩展、高精度的大规模语言模型推理的新基准,并引入了一个完全自动化的动态拓扑竞优机制。