LLM2D

摘要

arXiv:2402.12280v2 宣告类型: 替换-交叉摘要: 大型语言模型（LLMs）在自然语言任务中取得了显著的成功，但其推理过程带来了巨大的计算和内存开销。为了提高效率，类似 Thought-Skeleton (SoT) 的并行解码方法将提示分解为子问题，以便同时处理。然而，这些方法通过将语义关联的子问题视为独立问题，显著降低了答案质量。我们提出 Plato，一种新颖的方法，旨在协同设计算法和系统，以实现语义意识的并行解码。Plato 利用 LLMs 将子问题根据逻辑和因果关系组织成依赖图，从而在保持答案连贯性和质量的同时并发解码非依赖节点。为了进一步提高效率，Plato 集成了规划和节点解码阶段，实现了一个全局上下文缓存，并仔细结构化节点推理提示，以最大化键值缓存重用并最小化开销。我们的评估显示，与自回归解码相比，Plato 在吞吐量方面提高了68%，同时在答案质量方面获得40%净收益。与 SoT 相比，Plato 在答案质量方面展示了90%的净收益。消融研究揭示，我们的流水线设计将加速性能提高了29%，而我们的键值缓存重用优化将开销减少了75%。