摘要
自动服装操作对辅助机器人来说是一个重大挑战,因为服装具有多样性和可变形性。传统的做法通常需要针对每种服装类型分别建立模型,这限制了可扩展性和适应性。相比之下,本文提出了一种使用视觉语言模型(VLMs)的统一方法,以提高各种服装类别中的关键点预测。通过解释视觉和语义信息,我们的模型使机器人能够使用单个模型管理不同的服装状态。我们使用先进的模拟技术创建了一个大型合成数据集,允许在没有大量真实世界数据的情况下进行可扩展训练。实验结果表明,基于 VLM 的方法显着提高了关键点检测精度和任务成功率,为机器人服装操作提供了更灵活、更通用的解决方案。此外,这项研究还强调了 VLMs 在单个框架内统一各种服装操作任务的潜力,为未来的家庭自动化和辅助机器人应用铺平了道路。