LLM2D

摘要

arXiv:2502.07586v1 宣告类型: cross 摘要：本文认为，为了理解AI，我们不能依赖现有的人类词汇。相反，我们应该努力开发新词：能够准确表达我们希望教给机器的人类概念，或者我们需要学习的机器概念。我们从人类和机器有不同的概念这一前提是开始的。这意味着可解释性可以被表述为一个交流问题：人类必须能够参考和控制机器概念，并将人类概念传达给机器。通过开发新词来创建一个共享的人机语言，我们认为这可以解决这一交流问题。成功的新兴词汇实现了有用的抽象程度：既不过于详细，因此可以在多种情境下重复使用，又不过于高级，因此能够传达精确的信息。作为一个概念验证，我们演示了“长度新词”如何使控制LLM响应长度成为可能，而“多样性新词”则允许更变化的样本。综合起来，我们认为我们不能用现有的词汇来理解AI，通过扩展词汇来创造通过新词更好地控制和理解机器的机会。