LLM2D

摘要

大型语言模型（LLM）的参数数量不断增长，导致了计算需求的显著增加，使得它们的部署变得困难且昂贵。推测解码（SD）利用更小的模型来高效地预测未来词元，然后由 LLM 并行验证。目前，利用 LLM 激活的小型模型实现了最快的解码速度。然而，我们发现 SD 模型存在一些局限性，包括训练期间缺乏在线策略性和部分可观测性。为了解决这些缺陷，我们通过引入用于 SD 的注意力混合，为小型模型提出了更基础的架构。我们的新型架构可以在两种场景中应用：传统的单设备部署和新颖的客户端-服务器部署，其中小型模型托管在消费设备上，而 LLM 托管在服务器上。在单设备场景中，我们展示了最先进的加速效果，将 EAGLE-2 提高了 9.5%，并将它的接受长度提高了 25%。在客户端-服务器设置中，我们的实验表明：1）在不同网络条件下，以最少的服务器调用实现了最先进的延迟；2）在完全断开连接的情况下，与其他 SD 方法相比，我们的方法可以保持更高的准确率，并展示了相对于 LLM API 调用的优势，否则 LLM 将无法继续生成过程。