LLM2D
面向神经符号程序理解
Toward Neurosymbolic Program Comprehension
作者: Alejandro Velasco, Aya Garryyeva, David N. Palacio, Antonio Mastropaolo, Denys Poshyvanyk
发布日期: 2/5/2025
arXiv ID: 2502.01806

摘要

arXiv:2502.01806v1 声明类型: cross 摘要: 近年来,大语言模型(LLMs)的最新进展为复杂软件工程任务,如代码生成、软件测试和程序理解等,开启了大代码模型(LCMs)自动化的大门。工具如 GitHub Copilot 和 ChatGPT 在支持开发者各个方面的工作中表现出显著的优势。然而,将这些模型扩展到万亿参数规模,如 GPT-4 所展示的那样,带来了重大挑战,这些挑战限制了大型深度学习(DL)模型驱动的 AI 系统的使用。这些挑战包括训练和部署的计算需求日益增加,以及与可信性、偏差和可解释性相关的诸多问题。这些因素使得许多组织难以管理这些模型,而它们的“黑盒”性质削弱了透明度和问责制等关键方面。在这篇论文中,我们质疑增加模型参数始终是前进的最优路径这一普遍假设,前提是存在足够的新数据来学习额外的模式。特别是在这一点上,我们提倡一种结合现有 DL 技术(如 LLMs)与传统符号方法优点的研究方向——后者以其可靠性、速度和确定性而著称。为此,我们概述了该愿景方法的核心功能,并介绍了初步结果,旨在建立第一个神经符号程序理解(NsPC)框架,以帮助识别缺陷代码组件。