LLM2D

摘要

arXiv:2502.05431v2 宣言类型: replace-cross 摘要：上下文增强生成（CAG）技术，包括RAG和ICL，需要高效地结合多个上下文以生成用户查询的响应。直接将这些上下文作为序列输入会导致每次请求重新编码组合选择所引入的大量计算负担。为了解决这个问题，我们探索了并行编码的有前途的潜力，以独立地预计算和缓存每个上下文的KV状态。这种方法允许在推断过程中直接加载缓存状态，同时通过上下文之间的位置重用容纳更多的上下文。然而，由于注意力分布的对准不准确，直接应用并行编码会导致显著的性能下降。为了实现有效的高效CAG，我们提出了自适应并行编码（$\textbf{APE}$），它引入了共享前缀、注意力温度和缩放因子，以调整并行编码与顺序编码的注意力分布。在RAG和ICL任务上的结果表明，与相同的输入相比，APE 可以保持 98% 和 93% 的顺序编码性能，同时分别比并行编码高出 3.6% 和 7.9%。此外，APE 还能够扩展到多轮 CAG，有效地并行编码数百个上下文。效率评估表明，APE 可以通过将预填充时间减少 28 倍，实现端到端 4.5 倍的加速，适用于 128K 长度的上下文。