LLM2D

摘要

arXiv:2504.11493v1 Announce Type: 交叉摘要：理解人类和机器人之间的动作对应对于评估决策中的对齐至关重要，特别是在未结构化环境中的人机协作和模仿学习中。我们提出了一种多模态演示学习框架，该框架通过体素化RGB-D空间中的机器人演示，明确建模来自RGB视频的人类演示。我们以RH20T数据集中“取放”任务为重点，利用10种不同场景中5名用户的数据。方法结合了基于ResNet的视觉编码进行人类意图建模，并使用体素化的感知器变换器进行机器人动作预测。经过2000个训练周期后，人类模型的准确率为71.67%，机器人模型的准确率为71.8%，表明该框架在执行任务中对齐复杂多模态的人类和机器人行为的潜力。