LLM2D

摘要

自动服装操作对辅助机器人来说是一个重大挑战，因为服装具有多样性和可变形性。传统的做法通常需要针对每种服装类型分别建立模型，这限制了可扩展性和适应性。相比之下，本文提出了一种使用视觉语言模型（VLMs）的统一方法，以提高各种服装类别中的关键点预测。通过解释视觉和语义信息，我们的模型使机器人能够使用单个模型管理不同的服装状态。我们使用先进的模拟技术创建了一个大型合成数据集，允许在没有大量真实世界数据的情况下进行可扩展训练。实验结果表明，基于 VLM 的方法显着提高了关键点检测精度和任务成功率，为机器人服装操作提供了更灵活、更通用的解决方案。此外，这项研究还强调了 VLMs 在单个框架内统一各种服装操作任务的潜力，为未来的家庭自动化和辅助机器人应用铺平了道路。