LLM2D
基于大型多模态模型的个性化图像生成
Personalized Image Generation with Large Multimodal Models
作者: Yiyan Xu, Wenjie Wang, Yang Zhang, Biao Tang, Peng Yan, Fuli Feng, Xiangnan He
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2410.14170v2

摘要

arXiv:2410.14170v2 Announce Type: cross 摘要:个性化内容过滤,如推荐系统,已成为缓解信息过载的一项关键基础设施。然而,这些系统仅仅筛选现有内容,并受限于其有限的多样性,这使得很难满足用户的多样化内容需求。为了解决这一局限性,个性化内容生成作为一种前景广阔的方向已经出现。尽管如此,现有的大多数研究集中在个性化文本生成上,而对个性化图像生成的关注相对较少。现有的个性化图像生成工作在从嘈杂的用户交互图像和复杂的多模态指令中准确捕捉用户视觉偏好和需求方面面临挑战。更糟糕的是,缺乏用于训练个性化图像生成模型的监督数据。 为克服这些挑战,我们提出了一种名为Pigeon的个性化图像生成框架,该框架采用优秀的大型多模态模型,并包含三个专门模块来从嘈杂的用户历史和多模态指令中捕捉用户的视觉偏好和需求。为了缓解数据稀疏性问题,我们引入了一种两阶段的偏好对齐方案,包括掩码偏好重构和成对偏好对齐,以将Pigeon和个性化图像生成任务对齐。我们在个性化贴纸和电影海报生成中应用了Pigeon,并且大量定量结果和人类评估表明,其在各种生成基线中具有优越性。