摘要
arXiv:2503.02497v2 通告类型: replace-cross
摘要:大型语言模型(LLMs)在代码生成、自然语言处理和领域特定推理方面展现出非凡的能力。然而,它们在量子软件开发中的应用仍然鲜有探索,特别是对于PennyLane——一个领先的混合量子经典计算框架。为了解决这一缺口,我们引入了一个新颖且高质量的数据集,包含3,347个PennyLane特定的量子代码样本及其上下文描述,旨在支持LLM的训练和微调,以提供量子代码辅助。我们的贡献包括三个方面:(1)从教材、官方文档和开源仓库中自动构建和开源发布了一个综合性的PennyLane数据集;(2)一种结构化的数据收集、标注和格式化方法,以增强LLM的可用性和相关性;以及(3)使用基线检索增强生成(RAG)和GraphRAG增强流水线对代码生成能力进行严格的评估。通过PennyLang框架,我们展示了,当GraphRAG应用于GPT-4o Mini模型时,其性能显著优于标准提示和基线RAG。准确率从不使用RAG的20.5%提高到使用GraphRAG的58.2%,展示了它在减少幻觉并提高量子编程任务中代码准确性方面的效果。与主要集中在Qiskit上的先前努力相比,我们的工作将LLM驱动的辅助扩展到了PennyLane生态系统,提供了实用的工具和可再现的方法,以促进人工智能辅助的量子软件开发。