LLM2D

摘要

arXiv:2504.12424v1 摘要类型: cross 摘要: 这篇立场论文指出了在可解释人工智能（XAI）研究中的一种趋势，即使用大型语言模型（LLMs）将解释性技术（如特征归因权重）的输出翻译成自然语言解释。虽然这种方法可能提高用户的易用性或可读性，但最近的发现表明，将解释翻译成人类似乎的解释并不能必然增进用户的理解，反而可能导致对AI系统的过度依赖。当LLMs在不展示模型局限性、不确定性或不一致性的前提下总结XAI输出时，它们可能会强化解释可解释性的幻觉，而非促进有意义的透明度。我们认为，- 而不是仅仅翻译XAI输出 - LLMs 应该发挥建设性的批判者或魔鬼代言人的角色，其作用是积极质疑AI解释，提出替代解释、潜在偏见、训练数据局限性以及模型推理可能失效的情况。在这种角色中，LLMs 可以促进用户对AI系统及其生成的解释进行批判性参与，从而有可能减少由于错误解释或无根据解释引起的过度依赖。