LLM2D

摘要

大型语言模型 (LLM) 中的故障标记可能会引发不可预测的行为，从而影响模型的可靠性和安全性。现有的检测方法通常依赖于人工观察来推断故障标记的先验分布，这效率低下且缺乏跨不同模型架构的适应性。为了解决这些限制，我们引入了 GlitchMiner，这是一个基于梯度的离散优化框架，旨在高效地检测 LLM 中的故障标记。GlitchMiner 利用基于熵的损失函数来量化模型预测中的不确定性，并将一阶泰勒近似与局部搜索策略相结合，以有效地探索标记空间。我们在各种主流 LLM 架构上的评估表明，GlitchMiner 在检测精度和适应性方面都优于现有方法。与之前的最先进技术相比，GlitchMiner 在故障标记检测的 precision@1000 上平均提高了 19.07%。通过实现对故障标记的高效检测，GlitchMiner 为评估和减轻 LLM 中潜在漏洞提供了一种宝贵的工具，从而提升了它们的整体安全性。