摘要
arXiv:2407.10949v2 宣告类型: 替换-交叉
摘要:变压器可能使用什么样的内部机制来进行流畅、自然的对话?之前的工作通过构建展示了变压器如何解决各种合成任务,例如排序列表或识别形式语言,但在将其扩展到对话场景方面仍不清楚。在本文中,我们提出使用ELIZA,一个经典的规则基聊天机器人,作为基于变压器的聊天机器人的形式和机械分析的背景。ELIZA使我们能够正式建模对话的关键方面,包括局部模式匹配和长时间对话状态跟踪。我们首先提出了一个基于变压器的理论构造,该构造实现了ELIZA聊天机器人。在先前构造的基础上,特别是用于模拟有限状态自动机的构造,我们展示了如何通过组合和扩展更简单的机制来生成更复杂的行为。接着,我们对基于合成生成的ELIZA对话进行了一系列实证分析。我们的分析说明了这些模型倾向于偏好什么样的机制——例如,模型更偏好归纳头机制而非基于位置的精确复制机制;并且,使用中间生成来模拟递归数据结构,类似于隐式的草稿纸或思维链。总体而言,通过明确将神经聊天机器人与可解释的符号机制联系起来,我们的结果为对话代理的机械分析提供了一个新的框架。