LLM2D

摘要

arXiv:2504.01089v1 宣告类型：交叉摘要：仅在美国，每年因家庭事故导致的死亡人数超过128,000人。我们的研究旨在使家用机器人能够在家中应对紧急情况，预防受伤和死亡。我们基于ThreeDWorld模拟器引入了一个新的家庭紧急事件数据集。在我们的数据集中，每个场景始于一种可能或不可能是紧急情况的瞬时或周期性声音。代理必须利用之前的观察、模拟器中的音频信号和图像，在多房间的家庭场景中导航，以确定是否存在紧急情况。除我们的新数据集外，我们还介绍了一种模块化方法，用于定位和识别潜在的家庭紧急事件。我们方法的基础是一种新颖的概率动态场景图（P-DSG），其中我们的一项关键见解是，表示代理的图节点可以用概率边表示。当通过贝叶斯推断对这条边进行精平时，可以实现场景中代理的有效、高效的定位。我们还利用多模态视觉-语言模型（VLMs）作为我们方法的一个组件，确定对象属性（例如可燃性）并识别紧急情况。我们展示了我们的方法在消费级机器人上完成我们任务的现实世界版本的演示，证明了我们任务和方法的可迁移性。我们的数据集将在论文发表后对公众发布。