LLM2D

摘要

arXiv:2505.07437v1 类型: cross 摘要：指令微调已成为提高大语言模型（LLM）能力和对齐的关键范式。然而，现有的迭代模型感知数据选择方法因依赖于重复进行完整的数据集模型推理以估计样本在后续训练迭代中的实用性而产生了重大的计算开销，从而形成了一个根本性的效率瓶颈。在本文中，我们提出了一种高效的迭代数据选择框架LEAD，该框架可以在标准训练循环中完整地估计样本的实用性，从而消除额外昂贵的模型推理需求。其核心在于引入了实例级动态不确定性（IDU），这是一种结合瞬时训练损失、基于梯度的损失变化近似以及历史损失信号指数平滑的理论上可靠的有效性函数。为了更高效地处理大规模数据集，LEAD 使用了两阶段的粗糙到精细选择策略，利用多臂bandit机制适当地优先考虑信息性的簇，然后使用IDU来精确选择高效益样本。在四个不同的基准测试中进行的广泛实验表明，LEAD 显著优于现有最佳方法，仅使用培训数据的2.5%即可将平均模型性能提高6.1%-10.8%，并将整体训练时间缩短5-10倍。