LLM2D
直接后训练偏好对齐:使用预训练示例中的隐式反馈为多智能体运动生成模型进行偏好对齐
Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations
作者: Ran Tian, Kratarth Goel
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.20105v1

摘要

arXiv:2503.20105v1 宣布类型: 新 摘要: 最近在大语言模型(LLM)方面的进步在具身应用中彻底改变了运动生成模型。尽管 LLM 类型的自回归运动生成模型得益于训练可扩展性,但它们的标记预测目标与人类喜好之间仍然存在差异。因此,仅通过标记预测目标进行预训练的模型往往会生成偏离人类偏好的行为,从而使后续训练的偏好对齐变得至关重要,以生成人类偏好的运动。不幸的是,后续训练的偏好对齐需要大量的标记,这些标记是生成的运动,这在多代理设置中尤其成本高昂。最近,人们越来越有兴趣利用预训练演示来大规模生成用于后续训练对齐的偏好数据。然而,这些方法往往采用对抗性假设,将所有由预训练模型生成的样本视为不偏好样本。这种对抗性方法忽视了模型生成运动之间提供的有价值的偏好排名信号,最终降低了对齐效果,可能导致行为偏离。在本工作中,我们不再将所有生成样本视为等同地差,而是利用预训练演示中隐含的偏好,构建预训练模型生成样本之间的偏好排名,从而提供更细致的偏好对齐指导,而无需任何人类成本。我们将在大规模交通模拟中应用该方法,并通过仅依赖预训练演示中的隐含反馈,而不需额外的后续训练人类偏好标注或高计算成本,证明了其在提高预训练模型生成行为的现实性方面有效性,使得重量级的 1M 运动生成模型与最先进的基于模仿的大模型相当。