LLM2D

摘要

为了使机器人能够在各种环境中自主导航和操作，它们必须能够识别环境的状态。然而，传统上，环境状态识别需要针对每个要识别的状态进行定制的独立方法。在本研究中，我们通过预训练的大规模视觉语言模型，利用口语进行统一的环境状态识别。我们应用了视觉问答和图像到文本检索，这些是视觉语言模型的任务。我们证明了，利用我们的方法，不仅可以识别房间门是开还是关，还可以识别透明门是开还是关以及水槽中是否有水流，而无需训练神经网络或进行手动编程。此外，通过基于黑盒优化从准备好的文本集中选择合适的文本，可以提高识别精度。对于每个状态识别，只需要改变文本集及其权重，无需准备多个不同的模型和程序，从而简化了源代码和计算机资源的管理。我们通过实验验证了该方法的有效性，并将其应用于移动机器人 Fetch 上的行为识别。