摘要
arXiv:2504.11197v2 通知类型: 替换-交叉
摘要:小型语言模型(SLMs)支持在资源受限的边缘设备上进行高效部署,但其有限的容量会牺牲推理性能。检索增强生成(RAG)是一种通过集成外部数据库来提高模型性能的有前景的解决方案,而无需在设备上进行密集的模型重新训练。然而,大规模的公共数据库和用户的私人具体上下文文档通常位于云和设备上,而现有的RAG实现主要集中在中心化上。为了解决这一差距,我们提出了DRAGON,这是一种分布式RAG框架,通过获取通用和个性化知识在设备上增强SLM,且不泄露文档隐私。具体来说,DRAGON 将多文档RAG分解为在云和设备上独立且并行地执行的多个标记生成过程,并采用一种新设计的推测性聚合算法,以避免云和设备之间的频繁输出同步。此外引入了一种新的调度算法,根据实时网络条件确定最佳聚合侧。基于真实硬件测试床的评估表明,DRAGON在整体性能上比集中式RAG提高了最高1.9倍,显著降低了每个标记延迟,并且在首个标记时间(TTFT)上几乎没有额外开销。