摘要
arXiv:2501.18771v1 交叉公告类型:cross
摘要:数据污染——评估示例意外地进入了预训练数据中——可能会削弱评估基准的有效性。在本文中,我们对在机器翻译任务中1B和8B规模的语言模型中数据污染的影响进行了严谨的分析。从一个精心去除非污染的训练-测试拆分开始,我们系统地在各个阶段、不同规模和数据格式中引入污染,以隔离其影响并衡量其对性能指标的影响。我们的实验揭示,源语言和目标语言的双重污染大大提高了BLEU得分,8B模型的这种提高比1B模型大2.5倍(最高可达30个BLEU分数)。相比之下,仅源语言和仅目标语言的污染通常会产生较小且不一致的高估。最后,我们研究了污染样本的时间分布和频率如何影响不同数据资源程度的语言中性能高估的情况。