LLM2D

摘要

arXiv:2410.14735v4 公告类型: replace-cross 摘要: 训练大型语言模型以掌握具体技能仍然是一个具有挑战性的任务。传统的训练方法常常难以应对数据分布不平衡以及与任务特定性能不匹配的目标函数。为了解决这些挑战，我们引入了CycleQD，这是一种新颖的方法，它通过算法的循环适应利用了Quality Diversity框架，并结合了基于模型合并的杂交和基于SVD的变异。在CycleQD中，每个任务的性能指标交替作为质量度量，而其他指标则作为行为特征。这种循环关注个体任务允许在一次专注于一个任务的同时集中精力，从而消除了数据比例调整的需要，并简化了目标函数的设计。来自AgentBench的实验证明，将CycleQD应用于基于LLAMA3-8B-INSTRUCT的模型不仅使其在编码、操作系统和数据库任务中超越传统的微调方法，还能够在这些领域达到与具有更多参数的GPT-3.5-TURBO相当的表现。关键的是，这种性能的提升是在保持强大的语言能力的同时实现的，这可以通过其在广泛采用的语言基准任务中的表现来证明。我们强调了CycleQD的关键设计选择，详细说明了这些选择如何有助于其效果。此外，我们的方法是通用的，并可以应用于图像分割模型，突显了其在不同领域的适用性。