摘要
arXiv:2504.11197v1 交叉类型
摘要:小型语言模型(SLMs)支持在资源受限的边缘设备上进行高效的部署,但它们有限的能力会损害推理性能。检索增强生成(RAG)通过将外部数据库集成进来,提供了一种增强模型性能的有前途的解决方案,而无需对设备上的模型进行密集的重新训练。然而,大规模的公共数据库和用户特定的私人上下文文档通常位于云和设备上,而现有的RAG实现主要集中在中心化上。为了弥合这一差距,我们提出了DRAGON,一个分布式RAG框架,通过结合通用和个性化的知识来增强设备上的SLMs,而不会泄露文档隐私。具体而言,DRAGON将多文档RAG分解为在云和设备上独立且并行执行的多个标记生成过程,并采用一种新设计的推测性聚合算法,以避免云和设备之间的频繁输出同步。还引入了一种新的调度算法,基于实时网络条件来识别最优的聚合侧。在实际硬件测试平台上对DRAGON的评估显示,与中心化的RAG相比,DRAGON带来了显著的性能提升——相对独立的SLMs可提高多达1.9倍,每标记延迟显著降低,且初始标记时间(TTFT)开销几乎可以忽略不计。