摘要
arXiv:2503.07091v3 公告类型: replace-cross
摘要:由于当前面部身份(FaceID)定制方法的数据驱动性质,所有最先进的模型都依赖于包含数百万高质量文本-图像对的大规模数据集进行训练。然而,这些数据集都不是公开可用的,这限制了透明度并阻碍了该领域的进一步发展。
为了解决这个问题,我们在本文中收集并发布了FaceID-6M,这是第一个开源的大型FaceID数据集,包含了600万高质量的文本-图像对。FaceID-6M是从LAION-5B [Schuhmann2022LAION] 中筛选出来的,并经过严格的图像和文本筛选步骤以确保数据集的质量,包括分辨率筛选以保持高质量的图片和面孔,人脸筛选以删除缺乏人类面孔的图片,以及基于关键字的策略保留包含与人类相关术语(如国籍、职业和姓名)的描述。通过这些清洁过程,FaceID-6M 提供了一个高质量的数据集,用于训练强大的FaceID定制模型,通过提供一个开放的资源供研究和开发使用,促进了该领域的进步。
我们进行了广泛的实验,展示了FaceID-6M的有效性,证明了在我们的FaceID-6M数据集上训练的模型在性能上与目前可用的工业模型相当,甚至稍好。此外,为了支持并推进面部身份定制社区的研究,我们已将我们的代码、数据集和模型完全公开。我们的代码、模型和数据集可在以下链接获取:https://github.com/ShuheSH/FaceID-6M。