摘要
arXiv:2410.15633v4 移除交叉引用
摘要:对大语言模型进行调整以处理具有极长上下文的指令尚未得到充分研究。先前的研究尝试通过合成长指令跟随样本来扩展可用数据量,因为此类数据集的构建对注释员来说颇具挑战性。然而,缺乏有效的数据质量保障策略可能会引入低质量样本并限制模型性能。因此,我们提出了GATEAU,这是一种新颖的框架,用于通过识别富含长距离依赖关系的有影响力的样本来应对长上下文对齐的独特挑战。具体来说,GATEAU从两个关键方面衡量长距离依赖性:由于长距离依赖性导致生成目标响应的难度,以及由于此类依赖性导致理解长输入的难度。全面的实验表明,GATEAU有效地识别了有影响力的样本,并且在这些选定样本上训练的模型展示出了更好的指令遵循和长上下文理解能力。