LLM2D
网页抓取的文档质量评分
Document Quality Scoring for Web Crawling
作者: Francesca Pezzuti, Ariane Mueller, Sean MacAvaney, Nicola Tonellotto
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11011v1

摘要

arXiv:2504.11011v1 宣布类型: cross 摘要:互联网上存在大量的低质量内容,但用户期望网络搜索引擎能够提供高质量的相关结果。大量低质量页面的存在可能会对检索和爬虫过程产生负面影响,浪费在这些文档上的资源。因此,搜索引擎可以从利用有效质量估计方法的技术中大大受益,以减轻这些负面影响。网页的质量评分方法对于网络搜索系统中的许多典型过程(包括静态索引修剪、索引分层和爬虫)都很有用。在 Chang 等人~\cite{chang2024neural} 的工作基础上,他们提出了使用神经估计器来评估静态索引的质量,我们在此基础上扩展了他们的方法,并将他们的神经质量评分器应用于评估爬虫优先级任务中网页的语义质量。在我们的实验分析中,我们发现优先考虑语义质量高的页面可以改善下游搜索效果。我们的软件贡献在于一个 Docker 容器,它可以为给定的网页计算一个有效的质量评分,从而使质量评分器能够轻松地被纳入和用于网络搜索系统中的其他组件。