LLM2D

摘要

arXiv:2501.00363v2 公告类型: 交叉摘要：隐私计算受到越来越多的关注，但由于可用的库函数有限，开发人员在编写隐私计算代码时仍然面临挑战，需要从头实现功能，且数据无意识的要求与程序员的直观思维和通常的编程实践相矛盾。利用大规模语言模型自动化生成隐私计算代码可以简化开发工作，并降低使用隐私计算框架的门槛。然而，现有的语言模型在将代码转换为隐私保护计算方面仍然面临挑战，例如将Python代码转换为MP-SPDZ代码，因为用于有效预训练或微调的MP-SPDZ数据稀缺。此外，缺乏基准进一步复杂化了转换质量的评估。为了解决这些限制，本文提出了SPDZCoder，这是一种基于规则的框架，将大型语言模型与专家知识结合，以生成无需额外训练数据的隐私计算代码。具体而言，SPDZCoder采用严格的流程来收集高质量的专家知识，以表示Python和MP-SPDZ之间的语义表达差异，并基于这些知识推导出将Python转换为MP-SPDZ的转换规则。然后，SPDZCoder通过使用三阶段管道中的转换规则逐步将Python代码转换为MP-SPDZ代码。为了评估SPDZCoder，我们亲手构建了一个基准数据集SPDZEval，其中包括六个数据分割，每个都代表MP-SPDZ实现中一类不同的具有挑战性的任务。广泛的实验表明，SPDZCoder在pass@1和pass@2方面表现优异，显著超过了基线。具体而言，SPDZCoder在pass@1和pass@2方面的总体正确性分别为85.94%和92.01%，而最好的基线分别为63.58%和76.36%。