摘要
arXiv:2502.12481v1 交叉论文类型: cross
摘要:对象及其关系的状态分类是许多长期任务的核心,尤其是在机器人规划和操作方面。然而,可能的对象-谓词组合的组合爆炸,加上需要适应新的实际环境,使得状态分类模型能够利用少量示例泛化到新的查询成为了一种需求。为了解决这个问题,我们提出了PHIER,它利用谓词层次结构在少量示例的情况下有效泛化。PHIER使用一个以物体为中心的场景编码器、自监督损失,这些损失能够推断谓词之间的语义关系,以及一个双曲距离度量,能够捕捉层次结构;它学习一个图像-谓词对的结构化潜在空间,该空间指导状态分类查询的推理。我们在CALVIN和BEHAVIOR机器人环境中评估了PHIER,并展示了PHIER在少量示例和未知分布状态分类方面明显优于现有方法,并且在模拟到实际任务的零样本和少量样本泛化方面表现出强大的能力。我们的结果显示,利用谓词层次结构在有限数据下提高了状态分类任务的表现。