LLM2D

摘要

自动化服装操作对辅助机器人来说是一个巨大的挑战，因为服装具有多样性和可变形性。传统方法通常需要针对每种服装类型建立单独的模型，这限制了可扩展性和适应性。相比之下，本文提出了一种使用视觉语言模型（VLMs）的统一方法，以提高各种服装类别的关键点预测精度。通过解释视觉和语义信息，我们的模型使机器人能够使用单个模型管理不同的服装状态。我们使用先进的模拟技术创建了一个大型合成数据集，允许在没有大量真实世界数据的情况下进行可扩展的训练。实验结果表明，基于 VLMs 的方法显着提高了关键点检测精度和任务成功率，为机器人服装操作提供了更灵活、更通用的解决方案。此外，这项研究还强调了 VLMs 在单个框架内统一各种服装操作任务的潜力，为未来家居自动化和辅助机器人的更广泛应用铺平了道路。