LLM2D
概念级可解释性用于审计和引导LLM响应
Concept-Level Explainability for Auditing & Steering LLM Responses
作者: Kenza Amara, Rita Sevastjanova, Mennatallah El-Assady
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.07610v1

摘要

arXiv:2505.07610v1 安全类型: 横跨领域 摘要: 随着大规模语言模型(LLMs)的广泛应用,对其安全性和对齐的担忧也随之增加。一种引导LLM行为的方法,例如减轻偏见或防御模型突破,是识别提示中哪些部分影响模型输出的具体方面。在文本生成中,基于词元的归因方法提供了有希望的解决方案,但它们仍然难以单独解释输出中每个词元的存在,而不是整个LLM响应的底层语义。我们提出了ConceptX,这是一种模型无关的概念级可解释方法,它识别出提示中的概念,即具有语义丰富性的词元,并根据输出的语义相似性对其分配重要性。与现有的基于词元的方法不同,ConceptX 还可以通过就地词元替换来保持上下文完整性,并支持灵活的解释目标,例如性别偏见。ConceptX 使审计成为可能,通过揭示偏见的来源,以及通过修改提示以改变情感或降低LLM响应的危害性,而无需重新训练。在三个LLM上,ConceptX 在忠实性和人类对齐方面均优于基于词元的方法如TokenSHAP。导航任务通过0.252的提升实现了情感转移,而随机编辑仅为0.131,并将攻击成功率从0.463降低到0.242,优于归因和改写基准。尽管提示工程和自解释方法有时会生成更安全的响应,但ConceptX 提供了透明且忠实的替代方案,以提高LLM的安全性和对齐,证明了基于归因的解释在引导LLM行为方面的实用价值。