摘要
自动化服装操作对辅助机器人来说是一个巨大的挑战,因为服装具有多样性和可变形性。传统方法通常需要针对每种服装类型建立单独的模型,这限制了可扩展性和适应性。相比之下,本文提出了一种使用视觉语言模型(VLMs)的统一方法,以提高各种服装类别的关键点预测精度。通过解释视觉和语义信息,我们的模型使机器人能够使用单个模型管理不同的服装状态。我们使用先进的模拟技术创建了一个大型合成数据集,允许在没有大量真实世界数据的情况下进行可扩展的训练。实验结果表明,基于 VLMs 的方法显着提高了关键点检测精度和任务成功率,为机器人服装操作提供了更灵活、更通用的解决方案。此外,这项研究还强调了 VLMs 在单个框架内统一各种服装操作任务的潜力,为未来家居自动化和辅助机器人的更广泛应用铺平了道路。