LLM2D

摘要

arXiv:2504.15080v1 Announce Type: cross 摘要：尽管大型语言模型（LLMs）在代码生成方面得到了广泛应用，但它们在生成整个深度学习项目方面遇到了困难，因为这些项目具有复杂的结构、较长的函数以及比通用代码更强的领域知识依赖性。开放领域的大语言模型往往缺乏针对特定项目的连贯的上下文指导和领域专长，这使得生成完全符合用户要求的完整代码变得具有挑战性。在本文中，我们提出了一种新的基于规划的代码生成方法——DLCodeGen，专门用于生成深度学习项目。DLCodeGen 预测一个结构化的解决方案计划，为大语言模型生成项目提供全局指导。生成的计划随后被用来检索语义上相似的代码示例，并进一步抽象出代码模板。为了有效地整合这些多步检索增强技术，设计了一种对比学习机制来生成最终代码。我们在为深度学习代码生成构建的数据集上验证了我们方法的有效性。实验结果表明，DLCodeGen 在 CodeBLEU 指标上优于其他基线，提高了 9.7%，在人工评估指标上提高了 3.6%。