LLM2D
SKT:将状态感知关键点轨迹与视觉语言模型集成用于机器人服装操作
SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation
作者: Xin Li, Siyuan Huang, Qiaojun Yu, Zhengkai Jiang, Ce Hao, Yimeng Zhu, Hongsheng Li, Peng Gao, Cewu Lu
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2409.18082v2

摘要

自动化服装操作对辅助机器人来说是一个巨大的挑战,因为服装具有多样性和可变形性。传统方法通常需要针对每种服装类型建立单独的模型,这限制了可扩展性和适应性。相比之下,本文提出了一种使用视觉语言模型(VLMs)的统一方法,以提高各种服装类别的关键点预测精度。通过解释视觉和语义信息,我们的模型使机器人能够使用单个模型管理不同的服装状态。我们使用先进的模拟技术创建了一个大型合成数据集,允许在没有大量真实世界数据的情况下进行可扩展的训练。实验结果表明,基于 VLMs 的方法显着提高了关键点检测精度和任务成功率,为机器人服装操作提供了更灵活、更通用的解决方案。此外,这项研究还强调了 VLMs 在单个框架内统一各种服装操作任务的潜力,为未来家居自动化和辅助机器人的更广泛应用铺平了道路。