摘要
arXiv:2503.19474v2 宣告类型: replace-cross
摘要:在多模态意图识别(MIR)领域,目标是通过结合各种模态(如语言文本、身体手势和音调)来识别人类意图。然而,现有的方法在充分捕捉不同模态之间的内在联系以及忽略相应的意图语义表示方面面临困难。为了解决这些局限性,我们提出了基于锚点的多模态嵌入与语义同步(A-MESS)框架。我们首先设计了一个基于锚点的多模态嵌入(A-ME)模块,该模块采用基于锚点的嵌入融合机制来整合多模态输入。此外,我们还开发了一种语义同步(SS)策略,该策略采用三元对比学习管道,通过将多模态表示与大型语言模型生成的标签描述同步来优化过程。综合实验表明,我们的A-MESS在达到最新技术水平的同时,为多模态表示及其下游任务提供了重要见解。