LLM2D

摘要

arXiv:2504.16574v1 宣告类型: cross 摘要: 大型语言模型（LLMs）已经在各个自然语言处理任务中取得了显著进展，显示出了前所未有的能力。然而，与这种卓越性能相关的高昂成本限制了LLMs的广泛应用，突显了提示压缩的必要性。现有的提示压缩方法主要依赖启发式截断或摘要化技术，从根本上忽视了LLMs的内在机制，并且缺乏生成过程中重要性标记的系统评估。在此项工作中，我们提出了提示重要性采样（PIS），这是一种新颖的压缩框架，通过基于隐藏状态注意力分数的分析动态压缩提示，选择重要标记。PIS采用了双重压缩机制：1）在标记级别，我们使用LLM内生的注意力分数量化显著性，并通过一个轻量级的9层强化学习（RL）网络实现自适应压缩；2）在语义级别，我们提出了一种用于句子级别重要性采样的俄式轮盘赌采样策略。在多个领域基准上的全面评估表明，我们的方法实现了最先进的压缩性能。值得注意的是，我们的框架通过优化上下文结构意外地提高了推理效率。这项工作通过为LLMs提供理论基础和实际效率的上下文管理，推动了提示工程的发展。