LLM2D

摘要

arXiv:2505.07610v1 安全类型: 横跨领域摘要: 随着大规模语言模型（LLMs）的广泛应用，对其安全性和对齐的担忧也随之增加。一种引导LLM行为的方法，例如减轻偏见或防御模型突破，是识别提示中哪些部分影响模型输出的具体方面。在文本生成中，基于词元的归因方法提供了有希望的解决方案，但它们仍然难以单独解释输出中每个词元的存在，而不是整个LLM响应的底层语义。我们提出了ConceptX，这是一种模型无关的概念级可解释方法，它识别出提示中的概念，即具有语义丰富性的词元，并根据输出的语义相似性对其分配重要性。与现有的基于词元的方法不同，ConceptX 还可以通过就地词元替换来保持上下文完整性，并支持灵活的解释目标，例如性别偏见。ConceptX 使审计成为可能，通过揭示偏见的来源，以及通过修改提示以改变情感或降低LLM响应的危害性，而无需重新训练。在三个LLM上，ConceptX 在忠实性和人类对齐方面均优于基于词元的方法如TokenSHAP。导航任务通过0.252的提升实现了情感转移，而随机编辑仅为0.131，并将攻击成功率从0.463降低到0.242，优于归因和改写基准。尽管提示工程和自解释方法有时会生成更安全的响应，但ConceptX 提供了透明且忠实的替代方案，以提高LLM的安全性和对齐，证明了基于归因的解释在引导LLM行为方面的实用价值。