LLM2D

摘要

arXiv:2502.07835v1 交叉公告类型摘要：大型语言模型（LLMs）在软件工程中的崛起，尤其是在代码生成方面，受到了广泛关注。然而，评估AI生成的代码质量仍然是一个挑战，这主要是由于编程任务的固有复杂性和缺少与人类判断相匹配的稳健评估标准。传统的基于令牌的指标，如BLEU和ROUGE，在自然语言处理中常被使用，但在代码智能和验证任务中与人类评估的相关性较弱。此外，这些指标主要侧重于研究，且不适用于无缝集成到软件开发生命周期中，限制了它们对开发人员改进代码质量和安全的实际用途。 AI辅助编码对高级开发人员更有益，因为他们具备高度的分析能力，能够批判性地评估生成的代码以确保其正确性、完整性和合规性。相比之下，初级开发人员可能难以识别生成代码中的幻觉、缺失功能或错误逻辑。为解决这一问题，本文提出了一种新的评分机制SBC分数，该机制基于一种逆向生成技术，利用LLMs的自然语言生成能力。与直接对代码进行分析不同，我们的方法是从AI生成的代码中重建系统需求，并将其与原始规范进行比较，以量化准确性。SBC分数结合了语义相似性、BLEU和完整性的分析，为开发者提供行动建议，通过突出显示缺失的功能和幻觉来帮助他们。我们的代码和数据集可在GitHub上获得。