摘要
arXiv:2402.05980v3 宣布类型: replace-cross
摘要:大型语言模型在文本生成方面的成功也使它们在代码生成和编程任务方面更加优秀。尽管已经有大量的研究展示了它们在代码完成和编辑等任务上表现出色,但其背后的原因仍不甚清楚。我们通过探索自回归模型对底层程序逻辑构造的理解程度来弥合这一差距。我们提出了一种名为编程概念谓词反事实分析(CACP)的反事实测试框架,以评估大型代码模型是否理解编程概念。仅通过黑盒访问模型,我们使用CACP评估了四种不同编程概念下的十个流行大型代码模型。我们的研究发现表明,当前的模型在数据流和控制流等概念的理解上存在不足。