摘要
arXiv:2501.10711v3 宣告类型: replace-cross
摘要:已经提出了各种基准来评估大型语言模型(LLMs)在不同编程场景下的性能。我们称之为代码相关的基准。然而,目前尚没有系统性的指导方针,以确保这些基准的质量、可靠性和可重现性。我们提出了 How2Bench,这是一个由55项标准组成的检查表,旨在全面指导代码相关基准的开发。使用 HOW2BENCH,我们对过去十年内发布的274个基准进行了剖析,发现了一些令人担忧的问题。近70%的基准未能采取数据质量保障措施;超过10%的基准甚至没有开源或仅部分开源。许多高度引用来的基准存在漏洞,包括重复样本、错误的参考代码/测试/提示,以及未清除的敏感/保密信息。最后,我们进行了一项涉及49名参与者的调查研究,揭示了在数据质量、可重现性和透明度方面存在显著差距。