LLM2D

摘要

arXiv:2505.07901v1 类型: cross 摘要：双兮反应生成任务涉及合成与对话伙伴行为高度一致的面部反应，以增强人类互动模拟的自然性和有效性。本文介绍了一种新颖的方法，即潜在行为扩散模型，该模型由上下文感知自编码器和基于扩散的条件生成器组成，解决了从输入说话者行为生成多样且上下文相关面部反应的挑战。自编码器会压缩高维输入特征，捕获听众反应中的动态模式，并将复杂输入数据压缩成简洁的潜在表示，从而促进更具表现力且上下文适宜的反应合成。基于扩散的条件生成器在自编码器生成的潜在空间中运行，以非自回归的方式预测真实的面部反应。这种方法能够生成反映对话暗示和情绪状态细微变化的多样化面部反应。实验结果证明了我们的方法在双兮反应生成任务中优于现有方法的性能。