摘要
arXiv:2402.12280v2 宣告类型: 替换-交叉
摘要: 大型语言模型(LLMs)在自然语言任务中取得了显著的成功,但其推理过程带来了巨大的计算和内存开销。为了提高效率,类似 Thought-Skeleton (SoT) 的并行解码方法将提示分解为子问题,以便同时处理。然而,这些方法通过将语义关联的子问题视为独立问题,显著降低了答案质量。我们提出 Plato,一种新颖的方法,旨在协同设计算法和系统,以实现语义意识的并行解码。Plato 利用 LLMs 将子问题根据逻辑和因果关系组织成依赖图,从而在保持答案连贯性和质量的同时并发解码非依赖节点。为了进一步提高效率,Plato 集成了规划和节点解码阶段,实现了一个全局上下文缓存,并仔细结构化节点推理提示,以最大化键值缓存重用并最小化开销。我们的评估显示,与自回归解码相比,Plato 在吞吐量方面提高了68%,同时在答案质量方面获得40%净收益。与 SoT 相比,Plato 在答案质量方面展示了90%的净收益。消融研究揭示,我们的流水线设计将加速性能提高了29%,而我们的键值缓存重用优化将开销减少了75%。