LLM2D

摘要

随着生成式人工智能工具的使用量激增，大量敏感信息暴露于这些模型和集中式模型提供商手中，令人担忧。例如，三星的机密源代码因 ChatGPT 的文本提示遭遇数据泄露而遭受数据泄露。越来越多的公司（如苹果、Verizon、摩根大通等）因数据泄露或保密问题而限制使用大型语言模型。此外，越来越多的集中式生成模型提供商正在限制、过滤、调整或审查可以使用的内容。Midjourney 和 RunwayML 是两个主要的图像生成平台，它们通过提示过滤限制对系统的提示。某些政治人物以及与女性健康保健、权利和堕胎相关的词语都被禁止生成图像。在我们的研究中，我们提出了一种安全私密的生成式人工智能方法，该方法不会将敏感数据或模型暴露给第三方人工智能提供商。我们的工作修改了现代生成式人工智能算法的关键组成部分，例如 Transformer，并在去中心化网络中引入了机密且可验证的多方计算，以维护 1) 用户输入的隐私和对模型输出的混淆，以及 2) 对模型本身的隐私。此外，分片过程减少了任何一个节点的计算负担，从而能够将大型生成式人工智能过程的资源分布到多个较小的节点上。我们证明，只要去中心化计算中存在一个诚实的节点，安全就能得到维护。我们还证明，如果计算中只有大多数节点成功，推理过程仍然会成功。因此，我们的方法在去中心化网络中提供了安全且可验证的计算。