LLM2D

摘要

arXiv:2504.04785v1 Announce Type: 新摘要：有效地利用当代大型语言模型（LLMs）的能力变得越来越具有挑战性，特别是在直接微调成本高昂且通常不切实际的情况下。现有的无需训练的方法，包括手动或自动化设计的工作流，通常需要大量的人力投入或产生次优结果。本文提出了Weak-for-Strong Harnessing（W4S），这是一种新颖的框架，将较小且成本效益高的语言模型定制化，以设计和优化用于利用更强模型的工作流。W4S 将工作流设计公式化为多轮马尔可夫决策过程，并引入了代理工作流优化（RLAO）的强化学习，以训练一个弱元代理。通过与环境的迭代交互，元代理学会在无需人工干预的情况下设计越来越有效的复杂链式工作流。实验结果表明，W4S 的优越性在于我们的 7B 元代理，仅用一个 GPU 小时进行训练，相比于最强的基线模型，在 11 个基准测试中性能提高了 2.9% 到 24.6%，成功地提升了 GPT-3.5-Turbo 和 GPT-4o 等尖端模型的性能。值得注意的是，W4S 在看到的任务和未见过的任务上都表现出强大的泛化能力，提供了一种直接微调强模型的高效、高性能的替代方案。