LLM2D

摘要

近年来，研究人员提出了许多基准来评估大型语言模型（LLM）令人印象深刻的编码能力。然而，目前的基准主要评估LLM生成代码的准确性，而忽略了其他在实际开发中也显著影响代码质量的关键维度。此外，仅仅依赖正确性作为指导指标会使LLM容易受到数据污染的影响。因此，本文提出了RACE基准，该基准从可读性、可维护性、正确性和效率四个维度全面评估LLM生成的代码质量。具体来说，考虑到超越正确性的维度的需求依赖性，我们为每个维度设计了各种类型的用户需求，以评估模型生成既正确又满足用户需求的代码的能力。我们基于RACE分析了28个具有代表性的LLM，发现：1）当前以正确性为中心的基准未能捕捉到现实场景中代码的多方面需求，而RACE提供了一个全面的评估，揭示了LLM在多个维度上的缺陷；2）RACE基准可有效抵御数据污染的风险；3）即使是最先进的代码LLM，在涉及复杂指令的定制化需求方面仍然面临巨大挑战；4）大多数LLM都表现出对特定编码风格的内在偏好。这些发现突出了对代码LLM进行多维度评估的必要性，强调了在实际应用中超越正确性的指标。未来的努力应该旨在开发新的学习算法，以增强在各种约束条件下的代码生成能力，并提高对不同用户需求的覆盖范围和可用性。