LLM2D

摘要

arXiv:2503.04530v2 宣布类型: 修订摘要: 大型语言模型在推理方面表现出色，但经常依赖于链式思考提示，限制了其在需要更细致拓扑结构的任务中的性能。我们提出了SOLAR（大规模架构优化以推理），这是一个框架，能够动态优化链式思考（CoT）、树式思考（ToT）和图式思考（GoT）拓扑结构，以提高准确性和效率。我们的拓扑注释生成（TAG）系统自动化了数据集的创建、标注和难度分割，从而在训练后和测试时间性能方面表现出更强的效果。我们还提出了一种基于课程学习的拓扑扩展方法（Topological Scaling），该方法适应性地将训练后和推理扩展结合到每个任务中。在MATH和GSM8K上，SOLAR带来了显著的提升：拓扑调整提高了5%的准确性，拓扑激励提高了9%的准确性，混合扩展提高了10.02%的准确性，同时将响应长度减少了超过5%，降低了推理延迟。为了进一步提高效率，我们引入了一种多任务拓扑奖励模型（M-TRM），该模型能够在单次通过中选择出最佳的推理拓扑和最终答案，从而消除多个单一任务的TRMs。值得注意的是，M-TRM还超越了所有单一任务的TRMs，提高了10%的准确性，并提高了9%的相关性。总体而言，SOLAR确立了可扩展、高精度的大规模语言模型推理的新基准，并引入了一个完全自动化的动态拓扑竞优机制。