LLM2D

摘要

我们提出了 Flat'n'Fold，一个新的大规模服装操作数据集，它弥补了现有数据集的重大缺陷。该数据集包含 1,212 人类和 887 机器人演示，涵盖 8 个类别中 44 种独特服装的平铺和折叠操作，在规模、范围和多样性方面超越了先前的数据集。我们的数据集独特地捕捉了从褶皱到折叠状态的整个操作过程，提供同步的多视图 RGB-D 图像、点云和动作数据，包括手或抓取器的位置和旋转。我们量化了数据集相对于现有基准的多样性和复杂性，并表明我们的数据集在视觉和动作信息方面，展现了人类和机器人演示中真实世界操作的自然性和多样性。为了展示 Flat'n'Fold 的实用性，我们为抓取点预测和子任务分解建立了新的基准。我们对这些任务中最新模型的评估表明，仍有很大的改进空间。这突出了 Flat'n'Fold 在推动可变形物体机器人感知和操作方面的进步潜力。我们的数据集可从 https://cvas-ug.github.io/flat-n-fold 下载。