LLM2D
个性化图像生成与大型多模态模型
Personalized Image Generation with Large Multimodal Models
作者: Yiyan Xu, Wenjie Wang, Yang Zhang, Biao Tang, Peng Yan, Fuli Feng, Xiangnan He
发布日期: 2/5/2025
arXiv ID: 2410.14170

摘要

arXiv:2410.14170v2 宣告类型: cross 摘要: 个性化内容过滤,如推荐系统,已经成为缓解信息过载的关键基础设施。然而,这些系统仅仅过滤现成的内容,并受到其有限多样性的限制,使得难以满足用户多样化的内容需求。为了解决这一限制,个性化内容生成已成为一种有广泛应用前景的有希望的方向。尽管如此,大多数现有研究集中在个性化文本生成上,对个性化图像生成的关注相对较少。现有的个性化图像生成工作在从嘈杂的用户交互图像和复杂的多模态指令中准确捕捉用户视觉偏好和需求方面面临挑战。更糟糕的是,个性化图像生成模型的训练缺乏监督数据。 为了克服这些挑战,我们提出了一个名为Pigeon的个性化图像生成框架,采用优秀的超大规模多模态模型,并设有三个专用模块,从嘈杂的用户历史和多模态指令中捕捉用户的视觉偏好和需求。为缓解数据不足的问题,我们引入了一种两阶段的偏好对齐方案,包括掩蔽偏好重建和成对偏好对齐,以将Pigeon与个性化图像生成任务对齐。我们将Pigeon应用于个性化贴纸和电影海报生成,广泛的定量结果和人类评估突显了它在各种生成基线中的优越性。