LLM2D
跨模态注意力驱动的模态选择与技能分割
Modality Selection and Skill Segmentation via Cross-Modality Attention
作者: Jiawei Jiang, Kei Ota, Devesh K. Jha, Asako Kanezaki
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14573v1

摘要

arXiv:2504.14573v1 交叉类型:跨模态 摘要:将触觉和音频等额外的感觉模态整合到基础的机器人模型中,在维度灾难的作用下面临着重大挑战。本文通过模态选择来应对这一问题。我们提出了一种跨模态注意力(CMA)机制,以识别并在每个时间步长中选择性地利用对动作生成最具信息性的模态。此外,我们将CMA的应用扩展到了从专家演示中分割基础技能,并利用这种分割来训练一个层次化的策略,该策略能够解决长期规划且接触频繁的操作任务。