LLM2D

摘要

arXiv:2502.05431v1 Announce Type: cross 摘要：上下文增强生成（CAG）技术，包括RAG和ICL，需要高效地结合多个上下文来生成用户查询的响应。直接将这些上下文作为序列输入会因每次请求都需要重新编码合并的选择而引入显著的计算负担。为了解决这一问题，我们探索了并行编码的潜力，以独立预计算和缓存每个上下文的KV状态。这种方法允许在推理过程中直接加载缓存状态，同时通过上下文间的定位重用容纳更多上下文。然而，由于注意力分布对齐不当，直接应用并行编码会导致显著的性能下降。为了实现有效的和高效的CAG，我们提出了自适应并行编码（APE），该方法引入了共享前缀、注意力温度和比例因子，以使并行编码的注意力分布与序列编码对齐。对RAG和ICL任务的结果表明，APE可以在使用相同输入的同时保持98%和93%的序列编码性能，同时并行编码分别只能达到3.6%和7.9%的性能。此外，APE还可以扩展到多次生成（many-shot）的CAG中，有效地并行编码数百个上下文。效率评估表明，APE可以通过减少28倍的预填充时间，从而在长度为128K的上下文中实现端到端4.5倍的加速。