LLM2D
一种新的编码代码和辅助代码理解的方法
A new approach for encoding code and assisting code understanding
作者: Mengdan Fan, Wei Zhang, Haiyan Zhao, Zhi Jin
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2408.00521v2

摘要

arXiv:2408.00521v2 公布类型: 替换 摘要:一些公司(例如微软研究和谷歌深度思维)发现了一些关于 GPTs 自回归范式的局限性,这些局限性体现在模型缺乏规划、工作记忆、回溯和推理能力。GPTs 依赖于一种局部且贪婪的生成下一个词的过程,而没有对任务或输出进行全面理解。我们通过针对代码理解的专业实证研究确认了上述局限性。尽管 GPT-4 在生成流畅且连贯的文本方面表现出色,但它无法处理复杂的逻辑关系,生成未见过的新代码,并且在生成正确代码时过于依赖提示的格式化。我们提出了一种超越下一个词预测范式的新型代码理解范式,该范式受到图像生成(Dalle-2, Sora)和蛋白质结构生成(AlphaFold-3)中成功应用扩散技术的启发,而后者没有任何自回归约束。我们不将代码编码成模仿自然语言的形式,而是将代码编码为一个包含全球信息记忆的异构图像范式,模仿图像和蛋白质结构。然后,我们参考 Sora 的 CLIP 上游文本到图像编码器模型,设计了一个文本到代码编码器模型,可以应用于各种下游代码理解任务。该模型在新的异构图像范式下学习代码的全局理解,连接文本和代码的编码空间,并将文本输入编码为最接近它的代码向量。通过在 456,360 对文本-代码对上进行自我监督的对比学习,该模型实现了对新数据的零样本预测。这项工作是未来使用新型范式下的扩散技术进行代码生成的基础,以避免自回归的局限性。