LLM2D

摘要

语言模型被广泛评估，但正确解读评估结果需要了解训练-测试重叠，即语言模型在多大程度上被训练用于它正在被测试的同一数据。目前公众缺乏关于训练-测试重叠的足够信息：大多数模型没有公开的训练-测试重叠统计数据，第三方也无法直接测量训练-测试重叠，因为他们无法访问训练数据。为了明确这一点，我们记录了 30 位模型开发者的做法，发现只有 9 位开发者报告了训练-测试重叠：4 位开发者在开源许可下发布了训练数据，使社区能够直接测量训练-测试重叠，5 位开发者发布了他们的训练-测试重叠方法和统计数据。通过与语言模型开发者互动，我们为另外 3 位开发者提供了关于训练-测试重叠的新信息。总的来说，我们认为语言模型开发者应该在他们报告公共测试集上的评估结果时，发布训练-测试重叠统计数据和/或训练数据。我们希望我们的工作能够提高训练-测试重叠的透明度，从而提高社区对模型评估的信任。