LLM2D
大规模语言模型高效推理的动态压缩提示
Dynamic Compressing Prompts for Efficient Inference of Large Language Models
作者: Jinwu Hu, Wei Zhang, Yufeng Wang, Yu Hu, Bin Xiao, Mingkui Tan, Qing Du
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11004v1

摘要

arXiv:2504.11004v1 类型:交叉领域 摘要:大型语言模型(LLMs)在各种任务中表现出色,部分原因在于先进的提示技术。然而,这些技术通常需要较长的提示,这增加了计算成本,并且由于LLMs的有限上下文窗口,可能会妨碍其性能。尽管提示压缩是一种直接的解决方案,但现有方法面临着保留关键信息、适应上下文变化以及在不同任务中保持有效性的挑战。为了应对这些问题,我们提出了一种任务无关的方法,称为动态压缩提示(LLM-DCP)。我们的方法在尽可能保留性能的同时减少了提示令牌的数量。我们将提示压缩建模为马尔可夫决策过程(MDP),使得DCP-Agent能够通过适应动态上下文并保留关键内容来顺序删除冗余令牌。我们为训练DCP-Agent开发了一个奖励函数,该函数平衡了压缩率、LLM输出的质量以及保留关键信息的关系。这使得在无需外部黑盒LLM的情况下也能实现提示令牌的减少。借鉴课程学习中逐步增加难度的方法,我们引入了一种分层提示压缩(HPC)训练策略,这种策略逐步增加压缩难度,使DCP-Agent学习一种有效的压缩方法,以保持信息完整性。实验表明,我们的方法在更高的压缩率下优于现有技术。我们的方法的代码可以在https://github.com/Fhujinwu/DCP获取。