LLM2D

摘要

网络爬取是一种强大的技术，可以从网站中提取数据，实现自动化数据收集、增强数据分析能力，并最大限度地减少人工数据输入的工作量。现有的方法，基于包装器的方法在面对新网站时适应性和可扩展性有限，而由大型语言模型 (LLM) 赋能的语言代理在不同的网络环境中表现出较差的可重用性。在本工作中，我们介绍了使用 LLM 生成网络爬虫的范式，并提出了 AutoScraper，这是一种两阶段框架，可以更有效地处理各种变化的网络环境。AutoScraper 利用 HTML 的层次结构和不同网页之间的相似性来生成网络爬虫。此外，我们提出了一种新的可执行性指标，用于更好地衡量网络爬虫生成任务的性能。我们使用多个 LLM 进行了全面的实验，并证明了我们框架的有效性。本文的资源可以在 \url{https://github.com/EZ-hwh/AutoScraper} 找到。