LLM2D

摘要

arXiv:2504.16419v1 标注类型：交叉摘要：图形用户界面（GUI）数据集对各种下游任务至关重要。然而，GUI数据集通常通过自动标注生成注释信息，这通常会导致GUI元素边界框（BBox）注释的不准确性，包括缺失、重复或无意义的边界框。这些问题会降低这些数据集上训练的模型的性能，限制其在实际应用中的有效性。此外，现有的GUI数据集仅提供了视觉上的边界框注释，这限制了与GUI视觉相关的下游任务的发展。为了解决这些问题，我们引入了PixelWeb，这是一个包含超过100,000个标注网页的大规模GUI数据集。PixelWeb利用一种新颖的自动标注方法构建，该方法结合了视觉特征提取和文档对象模型（DOM）结构分析，通过两个核心模块：信道提取和层级分析进行构建。信道提取确保在遮挡和重叠元素情况下GUI元素的准确定位，通过提取BGRA四通道位图注释来实现。层级分析使用DOM来确定元素的可见性和叠加顺序，提供精确的边界框注释。此外，PixelWeb还包括丰富的元数据，如元素图像、轮廓和掩码注释。三位独立的标注员的手动验证确认了PixelWeb注释的高质量和准确性。在GUI元素检测任务上的实验结果显示，PixelWeb在mAP95指标上的性能比现有数据集高出3-7倍。我们认为，PixelWeb在GUI生成和自动化用户交互等下游任务中的性能改进方面具有巨大的潜力。