摘要
arXiv:2504.13835v1 交叉类型:
摘要: 数据质量和多样性是构建有效指令调优数据集的关键。%
随着开源指令调优数据集的不断增加可用性,从大量数据中自动选择高质量和多样性的子集是有优势的。%
现有方法通常优先考虑实例质量,并使用启发式规则来保持多样性。%
然而,缺乏对整个集合的全面视图往往会导致次优结果。%
此外,启发式规则通常关注嵌入空间内的距离或聚类,这无法准确捕捉语义空间中复杂指令的意图。%
为了弥合这一差距,我们提出了一种统一的方法来量化数据集的信息内容。该方法通过构建标签图来建模语义空间,并根据图内的信息分布来量化多样性。%
基于这种测量,我们进一步引入了一种高效的采样方法,该方法通过迭代选择数据样本来最大化语义空间的信息增益(MIG)。%
在各种数据集和基础模型上的实验表明,MIG 一直优于现有最佳方法。%
值得注意的是,使用 MIG 采样的 5% Tulu3 数据微调的模型在 AlpacaEval 上的性能提高了 5.73%,在 Wildbench 上提高了 6.89%,与全数据集训练的官方 SFT 模型性能相当。