LLM2D
为什么 representation 工程有效:视觉-语言模型中的理论与实证研究
Why Representation Engineering Works: A Theoretical and Empirical Study in Vision-Language Models
作者: Bowei Tian, Xuntao Lyu, Meng Liu, Hongyi Wang, Ang Li
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.22720v1

摘要

arXiv:2503.22720v1 交叉公告类型:cross 摘要:表示工程化(RepE)已成为通过关注高层次表示而非单个神经元或电路来增强AI透明度的强大范式。它已在改进可解释性和控制方面证明有效,表明表示可以在大规模语言模型(LLMs)中涌现、传播并对最终模型输出产生影响。然而,在视觉-语言模型(VLMs)中,视觉输入可以凌驾于事实性的语言知识之上,导致与现实相悖的幻想式响应。为了解决这一挑战,我们首次尝试将RepE扩展到VLMs,分析了多模态表示的保存和演变。基于我们的发现,并借鉴成功的RepE应用,我们开发了一个理论框架,使用主特征向量来解释跨层神经活动的稳定性,揭示了RepE的潜在机制。我们通过实证验证这些内在特性,展示了它们的广泛适用性和重要性。通过将理论洞察与实证验证相结合,这项工作将RepE从描述工具转变为结构化的理论框架,为提高AI的健壮性、公平性和透明度开辟了新的方向。