LLM2D
多样性作为一种奖励:在混合的领域未确定数据上微调LLMs
Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data
作者: Zhenqing Ling, Daoyuan Chen, Liuyi Yao, Yaliang Li, Ying Shen
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04380v1

摘要

arXiv:2502.04380v1 Announce Type: cross 摘要:使用多样化的数据集 fine-tuning 大型语言模型(LLMs)对于提升其在各个领域的整体性能至关重要。在实际场景中,现有的方法往往难以处理其领域标签缺失、不精确或未规范化数据,而基于数据选择的方法则通常难以平衡多领域的性能。为解决这些挑战,本文通过经验构建对比数据池和从理论上解释跨域和同域多样性来研究数据多样性的角色。基于这些见解,我们提出了一种新方法,赋予 LLM 双重身份:一个输出模型,用于基于多样性的奖励认知性地探测和选择数据;以及一个输入模型,通过选择的数据进行调整。广泛的实验表明,当应用于各种先进的 LLMs 时,所提出的方法显著提升了对于未确定领域的数据和一系列基础下游任务的性能。我们发布了代码,希望这一研究能够为理解数据多样性和推进基于反馈的数据-模型联合开发提供启示。