摘要
arXiv:2505.07239v1 安全计算类型: 横跨计算
摘要:随着在云平台上传主机大规模语言模型(LLMs)以提供推理服务,关于潜在敏感信息泄露的隐私担忧正在加剧。安全多方计算(MPC)是一种保护LLM推理隐私的有前途的解决方案。然而,MPC需要频繁的服务器间通信,导致高性能开销。
受大规模语言模型中普遍存在的激活稀疏性启发,在非线性激活函数之后大多数神经元未被激活,我们提出了一种高效的私有推理系统Comet。该系统采用了一个准确且快速的预测器来预测激活函数输出的稀疏分布。此外,我们引入了一种新的私有推理协议,通过利用预测稀疏分布的空间局部性,高效且安全地避免涉及零值的计算。尽管这种计算避免方法影响了KV缓存条目的时空连续性,我们通过一种低通信开销的缓存补充策略来应对这一挑战,该策略合并了未命中请求并引入了预取机制。最后,我们在四种常见的LLM上评估了Comet,并将其与六种最先进的私有推理系统进行了比较。Comet实现了1.87倍至2.63倍的加速,以及1.94倍至2.64倍的通信减少。