LLM2D
朝向神经符号性程序理解
Toward Neurosymbolic Program Comprehension
作者: Alejandro Velasco, Aya Garryyeva, David N. Palacio, Antonio Mastropaolo, Denys Poshyvanyk
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01806v1

摘要

arXiv:2502.01806v1 交叉领域类型: 摘要:大型语言模型(LLMs)的最新进展为大型代码模型(LCMs)铺平了道路,使得在复杂软件工程任务(如代码生成、软件测试和程序理解等)中实现了自动化。像GitHub Copilot和ChatGPT这样的工具在各个开发实践方面为开发者提供了显著的好处。然而,将这些模型扩展到万亿参数规模,例如GPT-4所展示的,带来了显著的挑战,限制了基于大型深度学习(DL)模型的人工智能(AI)系统的使用。这些挑战包括训练和部署所需的日益增长的计算需求以及与可信度、偏差和可解释性相关的问题。这些因素可能使得许多组织难以管理这些模型,而其“黑箱”性质削弱了透明度和问责制等方面的关键方面。在本文中,我们质疑一个普遍的假设,即在有足够的新数据可以学习更多模式的情况下,增加模型参数总是前进的最佳路径。特别地,我们提倡一种综合现有DL技术(例如LLMs)和传统符号方法的研究方向,传统符号方法以其可靠性、速度和确定性而闻名。为此,我们概述了该方法的核心特征,并初步展示了我们设想的方法的成果,旨在建立第一个神经符号程序理解(NsPC)框架,以帮助识别缺陷代码组件。