LLM2D

摘要

arXiv:2504.07945v1 Announce Type: cross 摘要：卡通头像在社交媒体、在线辅导和游戏等领域得到了广泛应用。然而，现有的卡通头像数据集和生成方法在呈现具有精细面部表情的高表达性头像方面存在困难，往往受到现实身份的启发，这引发了隐私方面的担忧。为了解决这些问题，我们提出了一种名为GenEAva的新框架，用于生成具有精细面部表情的高质量卡通头像。我们的方法微调了最先进的文本到图像扩散模型，以合成高度详细和表现力强的面部表情。然后，我们引入了一种风格化模型，将这些真实的面部转化为卡通头像，同时保留身份和表情。利用此框架，我们推出了首个多表情卡通头像数据集GenEAva 1.0，专门设计用于捕捉135种精细的面部表情，包含13,230个表达丰富的卡通头像，这些头像在性别、种族群体及年龄范围之间分布均衡。我们展示了我们的微调模型生成的面部表情比最先进的文本到图像扩散模型SDXL更为生动。我们也验证了我们的框架生成的卡通头像并不包含微调数据中的记忆身份。所提出的框架和数据集为未来关于卡通头像生成的研究提供了一个多样化和高表达性的基准。