LLM2D

摘要

arXiv:2505.08719v1 声明类型: cross 摘要: 云计算服务器托管的大语言模型（LLMs）缓解了本地设备的计算和存储负担，但由于敏感数据的传输引发了隐私担忧，并且需要大量的通信带宽，这在受限环境中是一项挑战。相比之下，本地运行的小语言模型（SLMs）增强了隐私保护，但在复杂任务上表现受限。为了在带宽限制下平衡计算成本、性能和隐私保护，我们提出了一种隐私感知无线协作混合专家（PWC-MoE）框架。具体而言，PWC-MoE 使用稀疏的隐私感知门控网络动态地将敏感令牌路由到本地客户端上的隐私专家，而非敏感令牌则路由到远程基站的非隐私专家。为了实现计算效率，门控网络确保每个令牌只被动态路由到和处理由一个专家。为了增强可扩展性并防止特定专家过载，我们引入了一种分组负载均衡机制，该机制在隐私专家和非隐私专家之间均匀分布敏感令牌和非敏感令牌。为了在带宽约束下适应并保持模型性能，我们提出了带宽自适应和重要性感知的令牌卸载方案。该方案结合了重要性预测器来评估非敏感令牌的重要性评分，并根据其预测的重要性和可用带宽优先传输最重要的令牌到基站。实验表明，PWC-MoE框架即使在带宽受限的环境中也能有效保护隐私并保持高性能，为在隐私敏感和带宽受限场景下部署LLMs提供了实用解决方案。