摘要
arXiv:2502.07586v1 宣告类型: cross
摘要:本文认为,为了理解AI,我们不能依赖现有的人类词汇。相反,我们应该努力开发新词:能够准确表达我们希望教给机器的人类概念,或者我们需要学习的机器概念。我们从人类和机器有不同的概念这一前提是开始的。这意味着可解释性可以被表述为一个交流问题:人类必须能够参考和控制机器概念,并将人类概念传达给机器。通过开发新词来创建一个共享的人机语言,我们认为这可以解决这一交流问题。成功的新兴词汇实现了有用的抽象程度:既不过于详细,因此可以在多种情境下重复使用,又不过于高级,因此能够传达精确的信息。作为一个概念验证,我们演示了“长度新词”如何使控制LLM响应长度成为可能,而“多样性新词”则允许更变化的样本。综合起来,我们认为我们不能用现有的词汇来理解AI,通过扩展词汇来创造通过新词更好地控制和理解机器的机会。