LLM2D

摘要

arXiv:2407.10949v2 宣告类型: 替换-交叉摘要：变压器可能使用什么样的内部机制来进行流畅、自然的对话？之前的工作通过构建展示了变压器如何解决各种合成任务，例如排序列表或识别形式语言，但在将其扩展到对话场景方面仍不清楚。在本文中，我们提出使用ELIZA，一个经典的规则基聊天机器人，作为基于变压器的聊天机器人的形式和机械分析的背景。ELIZA使我们能够正式建模对话的关键方面，包括局部模式匹配和长时间对话状态跟踪。我们首先提出了一个基于变压器的理论构造，该构造实现了ELIZA聊天机器人。在先前构造的基础上，特别是用于模拟有限状态自动机的构造，我们展示了如何通过组合和扩展更简单的机制来生成更复杂的行为。接着，我们对基于合成生成的ELIZA对话进行了一系列实证分析。我们的分析说明了这些模型倾向于偏好什么样的机制——例如，模型更偏好归纳头机制而非基于位置的精确复制机制；并且，使用中间生成来模拟递归数据结构，类似于隐式的草稿纸或思维链。总体而言，通过明确将神经聊天机器人与可解释的符号机制联系起来，我们的结果为对话代理的机械分析提供了一个新的框架。