LLM2D
AutoS$^2$earch:解锁大型模型在网页源码搜索中的推理潜力
AutoS$^2$earch: Unlocking the Reasoning Potential of Large Models for Web-based Source Search
作者: Zhengqiu Zhu, Yatai Ji, Jiaheng Huang, Yong Zhao, Sihang Qiu, Rusheng Ju
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09913v1

摘要

arXiv:2502.09913v1 通知类型: 新 摘要: 基于Web的管理系统在风险管理及工业安全方面得到了广泛应用。然而,有效地将来源搜索能力集成到这些系统中,以使决策者能够定位和解决危险(例如气体泄漏检测)仍然是一个挑战。尽管先前的努力已经探索了使用基于Web的众包和AI算法为来源搜索决策支持,但这些方法在招募人力资源方面存在成本,并且在时间敏感的情况下响应速度较慢。为解决这一问题,我们介绍了AutoS$^2$earch,这是一种利用大规模模型在Web应用程序中进行零样本来源搜索的新型框架。AutoS$^2$earch 在基于Web的显示中通过简化视觉环境运作,利用一个模拟人类推理的推理链提示。多模态大规模语言模型(MLLMs)动态地将视觉观察转化为语言描述,从而使LLM能够在四个方向选择上进行语义推理。广泛实验表明,AutoS$^2$earch 在实现与人类-AI协作来源搜索性能相当的同时,消除了对众包劳动力的依赖。我们的工作提供了在其他工业应用中利用Web工程设计此类自主系统的宝贵见解。