LLM2D
基于梯度离散优化的</s>大语言模型中故障标记的挖掘
Mining Glitch Tokens in Large Language Models via Gradient-based Discrete Optimization
作者: Zihui Wu, Haichang Gao, Ping Wang, Shudong Zhang, Zhaoxiang Liu, Shiguo Lian
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.15052v2

摘要

大型语言模型 (LLM) 中的故障标记可能会引发不可预测的行为,从而影响模型的可靠性和安全性。现有的检测方法通常依赖于人工观察来推断故障标记的先验分布,这效率低下且缺乏跨不同模型架构的适应性。为了解决这些限制,我们引入了 GlitchMiner,这是一个基于梯度的离散优化框架,旨在高效地检测 LLM 中的故障标记。GlitchMiner 利用基于熵的损失函数来量化模型预测中的不确定性,并将一阶泰勒近似与局部搜索策略相结合,以有效地探索标记空间。我们在各种主流 LLM 架构上的评估表明,GlitchMiner 在检测精度和适应性方面都优于现有方法。与之前的最先进技术相比,GlitchMiner 在故障标记检测的 precision@1000 上平均提高了 19.07%。通过实现对故障标记的高效检测,GlitchMiner 为评估和减轻 LLM 中潜在漏洞提供了一种宝贵的工具,从而提升了它们的整体安全性。