LLM2D
关于合成纹理数据集:挑战、创建与策展
On Synthetic Texture Datasets: Challenges, Creation, and Curation
作者: Blaine Hoak, Patrick McDaniel
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2409.10297v2

摘要

arXiv:2409.10297v2 宣布类型: replace-cross 摘要:纹理对机器学习模型的影响一直是一个持续的研究话题,特别是在纹理偏差/学习、可解释性和稳健性方面。然而,由于可用的大规模和多样化纹理数据的缺乏,这些工作的发现受到了限制,因为更全面的评估并不切实际。图像生成模型能够提供大规模的数据生成,但将这些模型用于纹理合成尚未被探索,并且在生成准确的纹理图像以及验证这些图像方面提出了额外的挑战。在本文中,我们介绍了一种可扩展的方法和相应的新型数据集,用于生成高质量、多样化的纹理图像,以支持一系列基于纹理的任务。我们的管道包括:(1)从一系列描述符中开发提示作为文本到图像模型的输入,(2)采用和调整Stable Diffusion管道生成和过滤相应的图像,以及(3)进一步筛选出最高质量的图像。通过这种方式,我们创建了Prompted Textures Dataset(PTD),一个包含362,880张纹理图像的数据集,涵盖56种纹理。在生成图像的过程中,我们发现图像生成管道中的NSFW安全过滤器对纹理非常敏感(标记了我们纹理图像的多达60%),揭示了这些模型中可能存在的一种偏差,并在处理纹理数据时提出了独特的挑战。通过标准度量和人类评估,我们发现我们的数据集具有高质量和多样性。我们的数据集可在https://zenodo.org/records/15359142处下载。