LLM2D

摘要

arXiv:2502.18915v2 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）在广泛的语言处理任务中展现了杰出的表现。然而，它们往往会受到输入序列中无关或噪声上下文的影响，从而降低输出质量。这个问题影响了从长上下文到短上下文的所有场景，例如检索增强生成、表格问答以及上下文学习。我们揭示了LLMs能够在生成标记之前，在早期层面上隐式地识别输入序列中是否包含有用的信息。基于这一洞察，我们引入了一种名为早期噪声丢弃（Early Noise Dropping，简称END）的新型方法，以减轻这一问题，而无需对LLMs进行微调。END方法将输入序列分割成块，并在LLMs的早期层面上使用一个线性探测器来区分信息性和噪声性块。通过在处理过程中尽早丢弃噪声性块，END保留了关键信息，减少了干扰，并降低了计算开销。广泛的实验表明，END在多个评估数据集上显著提高了不同LLMs的性能和效率。此外，通过使用探针研究LLMs对输入的隐式理解，这项工作也加深了对LLMs在内部如何利用上下文进行推理的理解。