摘要
arXiv:2502.09913v1 通知类型: 新
摘要: 基于Web的管理系统在风险管理及工业安全方面得到了广泛应用。然而,有效地将来源搜索能力集成到这些系统中,以使决策者能够定位和解决危险(例如气体泄漏检测)仍然是一个挑战。尽管先前的努力已经探索了使用基于Web的众包和AI算法为来源搜索决策支持,但这些方法在招募人力资源方面存在成本,并且在时间敏感的情况下响应速度较慢。为解决这一问题,我们介绍了AutoS$^2$earch,这是一种利用大规模模型在Web应用程序中进行零样本来源搜索的新型框架。AutoS$^2$earch 在基于Web的显示中通过简化视觉环境运作,利用一个模拟人类推理的推理链提示。多模态大规模语言模型(MLLMs)动态地将视觉观察转化为语言描述,从而使LLM能够在四个方向选择上进行语义推理。广泛实验表明,AutoS$^2$earch 在实现与人类-AI协作来源搜索性能相当的同时,消除了对众包劳动力的依赖。我们的工作提供了在其他工业应用中利用Web工程设计此类自主系统的宝贵见解。