LLM2D
SPDZCoder:结合专家知识与LLMs生成隐私计算代码
SPDZCoder: Combining Expert Knowledge with LLMs for Generating Privacy-Computing Code
作者: Xiaoning Dong, Peilin Xin, Jia Li, Wei Xu
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2501.00363v2

摘要

arXiv:2501.00363v2 公告类型: 交叉 摘要:隐私计算受到越来越多的关注,但由于可用的库函数有限,开发人员在编写隐私计算代码时仍然面临挑战,需要从头实现功能,且数据无意识的要求与程序员的直观思维和通常的编程实践相矛盾。利用大规模语言模型自动化生成隐私计算代码可以简化开发工作,并降低使用隐私计算框架的门槛。然而,现有的语言模型在将代码转换为隐私保护计算方面仍然面临挑战,例如将Python代码转换为MP-SPDZ代码,因为用于有效预训练或微调的MP-SPDZ数据稀缺。此外,缺乏基准进一步复杂化了转换质量的评估。为了解决这些限制,本文提出了SPDZCoder,这是一种基于规则的框架,将大型语言模型与专家知识结合,以生成无需额外训练数据的隐私计算代码。具体而言,SPDZCoder采用严格的流程来收集高质量的专家知识,以表示Python和MP-SPDZ之间的语义表达差异,并基于这些知识推导出将Python转换为MP-SPDZ的转换规则。然后,SPDZCoder通过使用三阶段管道中的转换规则逐步将Python代码转换为MP-SPDZ代码。为了评估SPDZCoder,我们亲手构建了一个基准数据集SPDZEval,其中包括六个数据分割,每个都代表MP-SPDZ实现中一类不同的具有挑战性的任务。广泛的实验表明,SPDZCoder在pass@1和pass@2方面表现优异,显著超过了基线。具体而言,SPDZCoder在pass@1和pass@2方面的总体正确性分别为85.94%和92.01%,而最好的基线分别为63.58%和76.36%。