LLM2D

摘要

arXiv:2503.19474v1 宣告类型: cross 摘要：在多模态意图识别（MIR）领域，目标是通过整合多种模态（如语言文本、身体手势和音调）来识别人类意图。然而，现有方法在充分捕捉不同模态之间的内在联系以及忽略相应意图的语义表示方面面临困难。为了解决这些问题，我们提出了一种基于锚的多模态嵌入与语义同步（A-MESS）框架。首先，我们设计了一个基于锚的多模态嵌入（A-ME）模块，该模块采用基于锚的嵌入融合机制来整合多模态输入。此外，我们开发了一种基于三重对比学习管道的语义同步（SS）策略，通过将多模态表示与大型语言模型生成的标签描述进行同步来优化过程。全面的实验表明，我们的A-MESS实现了最新技术水平，并为多模态表示及其下游任务提供了重要的见解。