摘要
为了使机器人能够在各种环境中自主导航和操作,它们必须能够识别环境的状态。然而,传统上,环境状态识别需要针对每个要识别的状态进行定制的独立方法。在本研究中,我们通过预训练的大规模视觉语言模型,利用口语进行统一的环境状态识别。我们应用了视觉问答和图像到文本检索,这些是视觉语言模型的任务。我们证明了,利用我们的方法,不仅可以识别房间门是开还是关,还可以识别透明门是开还是关以及水槽中是否有水流,而无需训练神经网络或进行手动编程。此外,通过基于黑盒优化从准备好的文本集中选择合适的文本,可以提高识别精度。对于每个状态识别,只需要改变文本集及其权重,无需准备多个不同的模型和程序,从而简化了源代码和计算机资源的管理。我们通过实验验证了该方法的有效性,并将其应用于移动机器人 Fetch 上的行为识别。