LLM2D

摘要

arXiv:2502.09913v1 通知类型: 新摘要: 基于Web的管理系统在风险管理及工业安全方面得到了广泛应用。然而，有效地将来源搜索能力集成到这些系统中，以使决策者能够定位和解决危险（例如气体泄漏检测）仍然是一个挑战。尽管先前的努力已经探索了使用基于Web的众包和AI算法为来源搜索决策支持，但这些方法在招募人力资源方面存在成本，并且在时间敏感的情况下响应速度较慢。为解决这一问题，我们介绍了AutoS$^2$earch，这是一种利用大规模模型在Web应用程序中进行零样本来源搜索的新型框架。AutoS$^2$earch 在基于Web的显示中通过简化视觉环境运作，利用一个模拟人类推理的推理链提示。多模态大规模语言模型（MLLMs）动态地将视觉观察转化为语言描述，从而使LLM能够在四个方向选择上进行语义推理。广泛实验表明，AutoS$^2$earch 在实现与人类-AI协作来源搜索性能相当的同时，消除了对众包劳动力的依赖。我们的工作提供了在其他工业应用中利用Web工程设计此类自主系统的宝贵见解。