LLM2D
SARGes: 语义对齐可靠手势生成 via 意图链
SARGes: Semantically Aligned Reliable Gesture Generation via Intent Chain
作者: Nan Gao, Yihua Bao, Dongdong Weng, Jiayi Zhao, Jia Li, Yan Zhou, Pengfei Wan, Di Zhang
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.20202v1

摘要

arXiv:2503.20202v1 类型: cross 摘要:共时言语手势生成通过言语同步的手势合成提高了人机交互的逼真度。然而,生成语义有意义的手势仍然是一个具有挑战性的问题。我们提出了一种名为SARGes的新框架,该框架利用大规模语言模型(LLMs)解析言语内容并生成可靠的语义手势标签,进而指导有意义的共时言语手势的合成。首先,我们构建了一个全面的共时言语手势目录,并开发了一种基于LLM的意图链推理机制,该机制系统地将手势语义分解为结构化的推理步骤,遵循目录标准,有效引导LLMs生成上下文感知的手势标签。随后,我们构建了一个带有意图链注释的文本到手势标签数据集,并训练了一个轻量级的手势标签生成模型,该模型随后指导生成可信且语义一致的共时言语手势。实验结果表明,SARGes实现了高度语义对齐的手势标(准确率为50.2%)以及高效的单次推理(0.4秒)。所提出的方法为语义手势合成提供了一个可解释的意图推理路径。