LLM2D
MIG:通过在语义空间中最大化信息增益进行指令调优的数据自动选择
MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space
作者: Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.13835v1

摘要

arXiv:2504.13835v1 交叉类型: 摘要: 数据质量和多样性是构建有效指令调优数据集的关键。% 随着开源指令调优数据集的不断增加可用性,从大量数据中自动选择高质量和多样性的子集是有优势的。% 现有方法通常优先考虑实例质量,并使用启发式规则来保持多样性。% 然而,缺乏对整个集合的全面视图往往会导致次优结果。% 此外,启发式规则通常关注嵌入空间内的距离或聚类,这无法准确捕捉语义空间中复杂指令的意图。% 为了弥合这一差距,我们提出了一种统一的方法来量化数据集的信息内容。该方法通过构建标签图来建模语义空间,并根据图内的信息分布来量化多样性。% 基于这种测量,我们进一步引入了一种高效的采样方法,该方法通过迭代选择数据样本来最大化语义空间的信息增益(MIG)。% 在各种数据集和基础模型上的实验表明,MIG 一直优于现有最佳方法。% 值得注意的是,使用 MIG 采样的 5% Tulu3 数据微调的模型在 AlpacaEval 上的性能提高了 5.73%,在 Wildbench 上提高了 6.89%,与全数据集训练的官方 SFT 模型性能相当。