LLM2D

摘要

arXiv:2310.09949v4 宣布类型: replace-cross 摘要：检索增强语言模型（RALM）结合了一个大型语言模型（LLM）和一个向量数据库，在文本生成过程中检索上下文特定的知识。这种策略即使使用较小的模型也能实现令人印象深刻的生成质量，从而将计算需求降低多个数量级。为了高效灵活地服务 RALMs，我们提出了 Chameleon 这个异构加速器系统，集成了 LLM 和向量搜索加速器于一体，采用的是分解式架构。这种异构性确保了对于推理和检索都能高效服务，而分解架构则允许独立扩展 LLM 和向量搜索加速器，以满足 RALM 的不同需求。我们的 Chameleon 原型在 FPGAs 上实现了向量搜索加速器，并将 LLM 推理分配给 GPUs，CPU 作为集群协调器。在各种 RALMs 上进行评估表明，与混合 CPU-GPU 架构相比，Chameleon 在延迟方面可以减少多达 2.16 倍，并在吞吐量方面提速 3.18 倍。这些令人鼓舞的结果为未来 RALM 系统采用异构加速器不仅用于 LLM 推理，还有助于向量搜索铺平了道路。