LLM2D

摘要

arXiv:2407.07890v3 通知类型: replace-cross 摘要：我们研究了一个在大型语言模型评估中 fundamentals 的问题，称之为在测试任务上的训练。与训练使用测试数据、泄露或数据污染等错误做法不同，训练在测试任务上并不是一种不道德的做法。相反，这一术语描述了一种越来越常见的实践，即在训练时使用关于评估任务的知识。我们证明，训练在测试任务上会混淆相对模型评估和关于新兴能力的声明。我们认为，一个模型家族优于另一个模型家族的表象可能可以由在测试任务上不同程度的训练来解释。为此，我们提出了一种有效的方法来调整训练在测试任务上对基准评估的影响。简而言之，即在评估之前，将每个要比较的模型微调在相同的任务相关数据上。然后我们证明，随着模型在测试任务上的训练，会出现的新兴行为会逐渐消失。我们的工作为大型语言模型的评估提供了一个新的视角，对基准测试和新兴能力研究都具有广泛的含义。