LLM2D

摘要

基础模型 (FMs) 在自然语言处理等任务中表现出色，并被应用于越来越多的学科。尽管通常在大型公共数据集上进行训练，但 FMs 通常会被微调或集成到检索增强生成 (RAG) 系统中，而这些系统依赖于私有数据。这种访问权限，以及它们的大小和昂贵的训练成本，增加了知识产权盗窃的风险。此外，多模态 FMs 可能会暴露敏感信息。在这项工作中，我们检查了 FM 威胁模型，并讨论了各种保护措施的实用性和全面性，例如基于 ML 的方法和可信执行环境 (TEEs)。我们证明了 TEEs 在强大的安全特性、可用性和性能之间取得了有效的平衡。具体来说，我们提出了一种解决方案，与在 \intel\ SGX 和 \intel\ TDX 中运行的完整的 Llama2 7B 和 13B 推理管道相比，其开销不到 10%。我们还分享了我们的配置文件和实施过程中的见解。据我们所知，我们的工作是第一个证明 TEEs 在保护 FMs 方面的实用性的工作。