LLM2D

摘要

arXiv:2501.10711v3 宣告类型: replace-cross 摘要：已经提出了各种基准来评估大型语言模型（LLMs）在不同编程场景下的性能。我们称之为代码相关的基准。然而，目前尚没有系统性的指导方针，以确保这些基准的质量、可靠性和可重现性。我们提出了 How2Bench，这是一个由55项标准组成的检查表，旨在全面指导代码相关基准的开发。使用 HOW2BENCH，我们对过去十年内发布的274个基准进行了剖析，发现了一些令人担忧的问题。近70%的基准未能采取数据质量保障措施；超过10%的基准甚至没有开源或仅部分开源。许多高度引用来的基准存在漏洞，包括重复样本、错误的参考代码/测试/提示，以及未清除的敏感/保密信息。最后，我们进行了一项涉及49名参与者的调查研究，揭示了在数据质量、可重现性和透明度方面存在显著差距。