LLM2D

摘要

arXiv:2503.22720v1 交叉公告类型：cross 摘要：表示工程化（RepE）已成为通过关注高层次表示而非单个神经元或电路来增强AI透明度的强大范式。它已在改进可解释性和控制方面证明有效，表明表示可以在大规模语言模型（LLMs）中涌现、传播并对最终模型输出产生影响。然而，在视觉-语言模型（VLMs）中，视觉输入可以凌驾于事实性的语言知识之上，导致与现实相悖的幻想式响应。为了解决这一挑战，我们首次尝试将RepE扩展到VLMs，分析了多模态表示的保存和演变。基于我们的发现，并借鉴成功的RepE应用，我们开发了一个理论框架，使用主特征向量来解释跨层神经活动的稳定性，揭示了RepE的潜在机制。我们通过实证验证这些内在特性，展示了它们的广泛适用性和重要性。通过将理论洞察与实证验证相结合，这项工作将RepE从描述工具转变为结构化的理论框架，为提高AI的健壮性、公平性和透明度开辟了新的方向。