LLM2D

摘要

arXiv:2504.13835v1 交叉类型: 摘要: 数据质量和多样性是构建有效指令调优数据集的关键。% 随着开源指令调优数据集的不断增加可用性，从大量数据中自动选择高质量和多样性的子集是有优势的。% 现有方法通常优先考虑实例质量，并使用启发式规则来保持多样性。% 然而，缺乏对整个集合的全面视图往往会导致次优结果。% 此外，启发式规则通常关注嵌入空间内的距离或聚类，这无法准确捕捉语义空间中复杂指令的意图。% 为了弥合这一差距，我们提出了一种统一的方法来量化数据集的信息内容。该方法通过构建标签图来建模语义空间，并根据图内的信息分布来量化多样性。% 基于这种测量，我们进一步引入了一种高效的采样方法，该方法通过迭代选择数据样本来最大化语义空间的信息增益(MIG)。% 在各种数据集和基础模型上的实验表明，MIG 一直优于现有最佳方法。% 值得注意的是，使用 MIG 采样的 5% Tulu3 数据微调的模型在 AlpacaEval 上的性能提高了 5.73%，在 Wildbench 上提高了 6.89%，与全数据集训练的官方 SFT 模型性能相当。