LLM2D
通过多模态示范学习实现人类与机器人动作的对齐
Toward Aligning Human and Robot Actions via Multi-Modal Demonstration Learning
作者: Azizul Zahid, Jie Fan, Farong Wang, Ashton Dy, Sai Swaminathan, Fei Liu
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.11493v1

摘要

arXiv:2504.11493v1 Announce Type: 交叉 摘要:理解人类和机器人之间的动作对应对于评估决策中的对齐至关重要,特别是在未结构化环境中的人机协作和模仿学习中。我们提出了一种多模态演示学习框架,该框架通过体素化RGB-D空间中的机器人演示,明确建模来自RGB视频的人类演示。我们以RH20T数据集中“取放”任务为重点,利用10种不同场景中5名用户的数据。方法结合了基于ResNet的视觉编码进行人类意图建模,并使用体素化的感知器变换器进行机器人动作预测。经过2000个训练周期后,人类模型的准确率为71.67%,机器人模型的准确率为71.8%,表明该框架在执行任务中对齐复杂多模态的人类和机器人行为的潜力。