摘要
arXiv:2502.08923v1 Announce Type: cross
摘要: 我们介绍了 CopySpec,一种旨在解决大型语言模型在生成与先前输出高度相似的响应时遇到的低效问题的创新技术。CopySpec 识别模型聊天历史中的重复序列,并推测相同的标记将会跟随,从而实现无缝复制,同时不牺牲输出质量或需要额外的 GPU 内存。为了评估该方法的有效性,我们在五种大型语言模型(LLM)和五种数据集中进行了实验:MT-Bench、CNN/DM、GSM-8K、HumanEval,以及我们在本文中新创建的数据集 MT-Redundant。MT-Redundant 将 MT-Bench 的第二轮转换为对第一轮答案变体的请求,模拟用户请求对先前响应进行修改的真实场景。我们的结果表明,显著的加速:在 CNN/DM 上高达 2.35 倍,在 MT-Redundant 选定类别的第二轮上高达 3.08 倍,在 GSM-8K 自我纠正任务的第三轮上高达 2.66 倍。此外,我们展示了 CopySpec 无缝集成到了预测性解码中,在 MT-Redundant 的所有八个类别中,与预测性解码相比,对 MT-Redundant 的第二轮平均提高了 49% 的速度。虽然即使带有预测性解码,随着上下文大小的增大,大型语言模型的推理也会变慢,但 CopySpec 利用扩展的上下文来加速推理,使得在上下文大小增加时其更快。我们的代码和数据集可在 https://github.com/RazvanDu/CopySpec 公开获得。