LLM2D

摘要

arXiv:2504.11004v1 类型：交叉领域摘要：大型语言模型（LLMs）在各种任务中表现出色，部分原因在于先进的提示技术。然而，这些技术通常需要较长的提示，这增加了计算成本，并且由于LLMs的有限上下文窗口，可能会妨碍其性能。尽管提示压缩是一种直接的解决方案，但现有方法面临着保留关键信息、适应上下文变化以及在不同任务中保持有效性的挑战。为了应对这些问题，我们提出了一种任务无关的方法，称为动态压缩提示（LLM-DCP）。我们的方法在尽可能保留性能的同时减少了提示令牌的数量。我们将提示压缩建模为马尔可夫决策过程（MDP），使得DCP-Agent能够通过适应动态上下文并保留关键内容来顺序删除冗余令牌。我们为训练DCP-Agent开发了一个奖励函数，该函数平衡了压缩率、LLM输出的质量以及保留关键信息的关系。这使得在无需外部黑盒LLM的情况下也能实现提示令牌的减少。借鉴课程学习中逐步增加难度的方法，我们引入了一种分层提示压缩（HPC）训练策略，这种策略逐步增加压缩难度，使DCP-Agent学习一种有效的压缩方法，以保持信息完整性。实验表明，我们的方法在更高的压缩率下优于现有技术。我们的方法的代码可以在https://github.com/Fhujinwu/DCP获取。