摘要
大型语言模型(LLMs)在自然语言处理领域取得了前所未有的成功。然而,其内部机制的黑箱性质引发了关于其可信性和可解释性的诸多担忧。最近的研究发现了一类在模型词汇空间中的异常词元,并将其命名为“故障词元”。这些词元一旦包含在输入中,可能导致模型产生错误、无关甚至有害的结果,从而极大地削弱了LLMs的可靠性和实用性。在这项工作中,我们旨在增强对故障词元的理解,并提出其检测和缓解的技术。我们首先揭示了故障词元对LLMs诱发的特征,这些特征通过中间模型层的注意力模式和动态信息分布的显著偏差得到了证实。基于这些见解,我们开发了GlitchProber,这是一种高效的故障词元检测和缓解工具。GlitchProber利用小规模采样、主成分分析进行加速特征提取,并使用简单分类器进行高效的词汇筛选。更进一步,GlitchProber通过修正异常的模型中间层值来缓解故障词元的破坏性影响。在五个主流开源LLMs上的评估表明,GlitchProber在效率、精度和召回率方面相比现有方法表现更佳,平均F1分数为0.86,平均修复率为50.06%。GlitchProber为解决故障词元带来的挑战开辟了一条新路径,并激励了未来朝着更稳健和可解释LLMs的研究。