LLM2D
变色龙:一种用于检索增强语言模型的异构和分解加速器系统
Chameleon: a Heterogeneous and Disaggregated Accelerator System for Retrieval-Augmented Language Models
作者: Wenqi Jiang, Marco Zeller, Roger Waleffe, Torsten Hoefler, Gustavo Alonso
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2310.09949v4

摘要

arXiv:2310.09949v4 宣布类型: replace-cross 摘要:检索增强语言模型(RALM)结合了一个大型语言模型(LLM)和一个向量数据库,在文本生成过程中检索上下文特定的知识。这种策略即使使用较小的模型也能实现令人印象深刻的生成质量,从而将计算需求降低多个数量级。为了高效灵活地服务 RALMs,我们提出了 Chameleon 这个异构加速器系统,集成了 LLM 和向量搜索加速器于一体,采用的是分解式架构。这种异构性确保了对于推理和检索都能高效服务,而分解架构则允许独立扩展 LLM 和向量搜索加速器,以满足 RALM 的不同需求。我们的 Chameleon 原型在 FPGAs 上实现了向量搜索加速器,并将 LLM 推理分配给 GPUs,CPU 作为集群协调器。在各种 RALMs 上进行评估表明,与混合 CPU-GPU 架构相比,Chameleon 在延迟方面可以减少多达 2.16 倍,并在吞吐量方面提速 3.18 倍。这些令人鼓舞的结果为未来 RALM 系统采用异构加速器不仅用于 LLM 推理,还有助于向量搜索铺平了道路。