LLM2D

摘要

我们提出了一种名为COLLAGE的新框架，用于利用大型语言模型（LLM）和分层运动特定矢量量化变分自动编码器（VQ-VAE）来生成协作的代理-对象-代理交互。我们的模型通过将LLM的知识和推理能力融入生成扩散模型来解决该领域缺乏丰富数据集的问题。分层VQ-VAE架构在多个抽象级别捕获不同的运动特定特征，避免冗余概念并实现高效的多分辨率表示。我们引入了一个在潜在空间中运行的扩散模型，并结合LLM生成的运动规划提示来指导去噪过程，从而产生更具控制力和多样性的提示特定运动生成。在CORE-4D和InterHuman数据集上的实验结果表明，我们的方法在生成逼真且多样化的协作人-物-人交互方面非常有效，优于最先进的方法。我们的工作为在机器人技术、图形学和计算机视觉等各个领域对复杂交互进行建模开辟了新的可能性。