LLM2D

摘要

arXiv:2504.16419v2 宣告类型: 替换-交叉摘要：图形用户界面（GUI）数据集对于各种下游任务至关重要。然而，GUI数据集通常通过自动标注生成注释信息，这通常会导致GUI元素的边界框（BBox）标注不准确，包括缺少、重复或没有意义的边界框。这些问题会降低基于这些数据集训练的模型的性能，限制其在实际应用中的效果。此外，现有的GUI数据集仅提供可视化的边界框标注，这限制了与视觉相关的GUI下游任务的发展。为了解决这些问题，我们引入了PixelWeb，这是一个包含超过100,000个标注网页的大规模GUI数据集。PixelWeb采用了一种新颖的自动标注方法，结合了视觉特征提取和文档对象模型（DOM）结构分析，通过两个核心模块：信道提取和层分析来构建。信道提取通过提取BGRA四通道位图标注确保在遮挡和重叠元素情况下的准确定位。层分析使用DOM来确定元素的可见性和堆叠顺序，提供精确的边界框标注。此外，PixelWeb还包括全面的元数据，如元素图像、轮廓和掩码标注。由三位独立标注员的手动验证确认了PixelWeb标注的高质量和高准确性。在GUI元素检测任务上的实验结果表明，PixelWeb在mAP95指标上的性能比现有数据集提高了3-7倍。我们相信，PixelWeb在GUI生成和自动化用户交互等下游任务中的性能改进方面具有巨大的潜力。