摘要
arXiv:2504.20676v1 介绍类型: 新
摘要:本文通过算法信息论为理解人工智能可解释性的基本极限奠定了理论基础。我们将可解释性形式化为通过更简单的模型近似复杂模型,并使用库尔莫哥洛夫复杂性量化近似误差和解释复杂度。我们的主要理论贡献包括:(1) 复杂性缺口定理证明,任何显著简单的解释必定会在某些输入上与原模型有所不同;(2) 精确界展示了解释复杂度随输入维度呈指数增长,但随容差误差呈多项式增长;以及(3) 局部解释与全局解释之间差异的表征,表明局部解释可以显著简单,同时在相关区域保持准确性。我们还建立了监管不可能性定理证明,没有任何监管框架能够同时追求不受限制的人工智能能力、人可理解的解释以及可忽略的误差。这些结果突显了设计、评估和监督可解释人工智能系统时可能需要考虑的考虑因素。