LLM2D
不只是翻译,还要激辩:将大型语言模型作为AI解释的对立派倡导者
Don't Just Translate, Agitate: Using Large Language Models as Devil's Advocates for AI Explanations
作者: Ashley Suh, Kenneth Alperin, Harry Li, Steven R Gomez
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.12424v1

摘要

arXiv:2504.12424v1 摘要类型: cross 摘要: 这篇立场论文指出了在可解释人工智能(XAI)研究中的一种趋势,即使用大型语言模型(LLMs)将解释性技术(如特征归因权重)的输出翻译成自然语言解释。虽然这种方法可能提高用户的易用性或可读性,但最近的发现表明,将解释翻译成人类似乎的解释并不能必然增进用户的理解,反而可能导致对AI系统的过度依赖。当LLMs在不展示模型局限性、不确定性或不一致性的前提下总结XAI输出时,它们可能会强化解释可解释性的幻觉,而非促进有意义的透明度。我们认为,- 而不是仅仅翻译XAI输出 - LLMs 应该发挥建设性的批判者或魔鬼代言人的角色,其作用是积极质疑AI解释,提出替代解释、潜在偏见、训练数据局限性以及模型推理可能失效的情况。在这种角色中,LLMs 可以促进用户对AI系统及其生成的解释进行批判性参与,从而有可能减少由于错误解释或无根据解释引起的过度依赖。