LLM2D

摘要

arXiv:2503.07091v3 公告类型: replace-cross 摘要：由于当前面部身份（FaceID）定制方法的数据驱动性质，所有最先进的模型都依赖于包含数百万高质量文本-图像对的大规模数据集进行训练。然而，这些数据集都不是公开可用的，这限制了透明度并阻碍了该领域的进一步发展。为了解决这个问题，我们在本文中收集并发布了FaceID-6M，这是第一个开源的大型FaceID数据集，包含了600万高质量的文本-图像对。FaceID-6M是从LAION-5B [Schuhmann2022LAION] 中筛选出来的，并经过严格的图像和文本筛选步骤以确保数据集的质量，包括分辨率筛选以保持高质量的图片和面孔，人脸筛选以删除缺乏人类面孔的图片，以及基于关键字的策略保留包含与人类相关术语（如国籍、职业和姓名）的描述。通过这些清洁过程，FaceID-6M 提供了一个高质量的数据集，用于训练强大的FaceID定制模型，通过提供一个开放的资源供研究和开发使用，促进了该领域的进步。我们进行了广泛的实验，展示了FaceID-6M的有效性，证明了在我们的FaceID-6M数据集上训练的模型在性能上与目前可用的工业模型相当，甚至稍好。此外，为了支持并推进面部身份定制社区的研究，我们已将我们的代码、数据集和模型完全公开。我们的代码、模型和数据集可在以下链接获取：https://github.com/ShuheSH/FaceID-6M。