LLM2D
自动抓取器:用于网页抓取器生成的渐进式理解网页代理
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation
作者: Wenhao Huang, Zhouhong Gu, Chenghao Peng, Zhixu Li, Jiaqing Liang, Yanghua Xiao, Liqian Wen, Zulong Chen
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2404.12753v2

摘要

网络爬取是一种强大的技术,可以从网站中提取数据,实现自动化数据收集、增强数据分析能力,并最大限度地减少人工数据输入的工作量。现有的方法,基于包装器的方法在面对新网站时适应性和可扩展性有限,而由大型语言模型 (LLM) 赋能的语言代理在不同的网络环境中表现出较差的可重用性。在本工作中,我们介绍了使用 LLM 生成网络爬虫的范式,并提出了 AutoScraper,这是一种两阶段框架,可以更有效地处理各种变化的网络环境。AutoScraper 利用 HTML 的层次结构和不同网页之间的相似性来生成网络爬虫。此外,我们提出了一种新的可执行性指标,用于更好地衡量网络爬虫生成任务的性能。我们使用多个 LLM 进行了全面的实验,并证明了我们框架的有效性。本文的资源可以在 \url{https://github.com/EZ-hwh/AutoScraper} 找到。