LLM2D

摘要

arXiv:2408.00521v2 公布类型: 替换摘要：一些公司（例如微软研究和谷歌深度思维）发现了一些关于 GPTs 自回归范式的局限性，这些局限性体现在模型缺乏规划、工作记忆、回溯和推理能力。GPTs 依赖于一种局部且贪婪的生成下一个词的过程，而没有对任务或输出进行全面理解。我们通过针对代码理解的专业实证研究确认了上述局限性。尽管 GPT-4 在生成流畅且连贯的文本方面表现出色，但它无法处理复杂的逻辑关系，生成未见过的新代码，并且在生成正确代码时过于依赖提示的格式化。我们提出了一种超越下一个词预测范式的新型代码理解范式，该范式受到图像生成（Dalle-2, Sora）和蛋白质结构生成（AlphaFold-3）中成功应用扩散技术的启发，而后者没有任何自回归约束。我们不将代码编码成模仿自然语言的形式，而是将代码编码为一个包含全球信息记忆的异构图像范式，模仿图像和蛋白质结构。然后，我们参考 Sora 的 CLIP 上游文本到图像编码器模型，设计了一个文本到代码编码器模型，可以应用于各种下游代码理解任务。该模型在新的异构图像范式下学习代码的全局理解，连接文本和代码的编码空间，并将文本输入编码为最接近它的代码向量。通过在 456,360 对文本-代码对上进行自我监督的对比学习，该模型实现了对新数据的零样本预测。这项工作是未来使用新型范式下的扩散技术进行代码生成的基础，以避免自回归的局限性。