摘要
大型语言模型 (LLM) 中的故障标记可能会引发不可预测的行为,从而影响模型的可靠性和安全性。现有的检测方法通常依赖于人工观察来推断故障标记的先验分布,这效率低下且缺乏跨不同模型架构的适应性。为了解决这些限制,我们引入了 GlitchMiner,这是一个基于梯度的离散优化框架,旨在高效地检测 LLM 中的故障标记。GlitchMiner 利用基于熵的损失函数来量化模型预测中的不确定性,并将一阶泰勒近似与局部搜索策略相结合,以有效地探索标记空间。我们在各种主流 LLM 架构上的评估表明,GlitchMiner 在检测精度和适应性方面都优于现有方法。与之前的最先进技术相比,GlitchMiner 在故障标记检测的 precision@1000 上平均提高了 19.07%。通过实现对故障标记的高效检测,GlitchMiner 为评估和减轻 LLM 中潜在漏洞提供了一种宝贵的工具,从而提升了它们的整体安全性。