摘要
评估代码语言模型 (CLM) 在软件工程任务中的性能,尤其是在多语言和低资源编程语言环境中,面临着巨大的挑战。这些挑战主要源于缺乏跨各种编程语言的高质量基准测试,以及 CLM 训练语料库的不平衡性质。尽管最近在代码生成(一种常见的下游任务)方面取得了进展,通过使用不同的方法引入翻译后的基准测试展现出希望,但目前缺乏评估这些基准测试的经验证据。为了解决这一差距,我们进行了一项初步研究,以评估 Poly-Coder 的性能,Poly-Coder 是一款为代码生成而构建的开创性开源多语言 CLM。我们使用了两种现有的最先进的流行代码生成基准测试 HumanEval 的翻译版本,这些版本由 OctoPack 和 MultiPL-E 研究提供。我们的结果表明,在这些翻译后的基准测试中观察到的结果与训练阶段使用的评估指标(例如困惑度)非常吻合,从而验证了它们在估计 CLM 性能方面的有效性。但是,我们发现 CLM 在翻译后的基准测试中的性能存在一些不一致之处,并且在复制结果方面也遇到了一些挑战。这些初步的见解凸显了需要进行更全面的实证研究,以充分了解翻译后的基准测试的方法、局限性和可重复性。此类研究对于确保其可靠性并在广泛采用之前至关重要。