摘要
arXiv:2504.16574v1 宣告类型: cross
摘要: 大型语言模型(LLMs)已经在各个自然语言处理任务中取得了显著进展,显示出了前所未有的能力。然而,与这种卓越性能相关的高昂成本限制了LLMs的广泛应用,突显了提示压缩的必要性。现有的提示压缩方法主要依赖启发式截断或摘要化技术,从根本上忽视了LLMs的内在机制,并且缺乏生成过程中重要性标记的系统评估。在此项工作中,我们提出了提示重要性采样(PIS),这是一种新颖的压缩框架,通过基于隐藏状态注意力分数的分析动态压缩提示,选择重要标记。PIS采用了双重压缩机制:1)在标记级别,我们使用LLM内生的注意力分数量化显著性,并通过一个轻量级的9层强化学习(RL)网络实现自适应压缩;2)在语义级别,我们提出了一种用于句子级别重要性采样的俄式轮盘赌采样策略。在多个领域基准上的全面评估表明,我们的方法实现了最先进的压缩性能。值得注意的是,我们的框架通过优化上下文结构意外地提高了推理效率。这项工作通过为LLMs提供理论基础和实际效率的上下文管理,推动了提示工程的发展。