摘要
大型语言模型 (LLM) 的最新进展极大地增强了它们生成自然且与上下文相关的文本的能力,使 AI 交互更加人性化。然而,生成和理解互动式的人类动作,即两个人进行协调的动作,仍然是一个挑战,因为对这些协调互动进行建模的复杂性。此外,需要一个通用的模型来处理各种交互场景,例如遵循用户指令或适应其分配角色的聊天系统,同时调整交互动态。为了解决这个问题,我们引入了 VIM,即通用交互动作语言模型,它集成了语言和动作模式,以有效地理解、生成和控制多轮对话环境中的交互动作。为了解决多轮交互动作数据稀缺的问题,我们引入了一个合成数据集 INERT-MT2,我们利用预训练模型来创建具有交互动作的各种指令数据集。我们的方法首先训练一个动作标记器,将交互动作编码为残差离散标记。在预训练阶段,模型学习将动作和文本表示与这些离散标记对齐。在指令微调阶段,VIM 使用 INTER-MT2 数据集适应多轮对话。我们评估了我们的方法在动作相关任务、动作到文本、文本到动作、反应生成、动作编辑和关于动作序列的推理方面的通用性。结果突出了所提方法在处理复杂交互动作合成方面的通用性和有效性。