LLM2D

摘要

训练大型语言模型以获取特定技能仍然是一项具有挑战性的工作。传统的训练方法往往难以应对数据分布不平衡以及与特定任务性能不匹配的目标函数缺陷。为了解决这些挑战，我们引入了CycleQD，这是一种利用质量多样性框架通过算法的循环适应、基于模型融合的交叉以及基于SVD的变异的新方法。在CycleQD中，每个任务的性能指标轮流作为质量度量，而其他指标则作为行为特征。这种对单个任务的循环关注允许一次集中精力在一个任务上，从而无需进行数据比例调整，并简化了目标函数的设计。AgentBench的实验结果表明，将CycleQD应用于基于LLAMA3-8B-INSTRUCT的模型，不仅使其在编码、操作系统和数据库任务上超越了传统的微调方法，而且在这些领域实现了与GPT-3.5-TURBO（其参数可能多得多）相当的性能。至关重要的是，这种增强的性能是在保持强大的语言能力的同时实现的，这在其在广泛采用的语言基准测试任务上的表现中得到了证明。我们重点介绍了CycleQD的关键设计选择，详细说明了这些选择如何促进其有效性。此外，我们的方法具有通用性，可以应用于图像分割模型，突出了其在不同领域的适用性。