LLM2D
Yo草 Butterfly: 个性化视觉与语言生成
YoChameleon: Personalized Vision and Language Generation
作者: Thao Nguyen, Krishna Kumar Singh, Jing Shi, Trung Bui, Yong Jae Lee, Yuheng Li
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20998v1

摘要

arXiv:2504.20998v1 交叉类型公告 摘要:大型多模式模型(例如,GPT-4、Gemini、Chameleon)已经成为具有数百万用户的强大工具。然而,它们仍然是通用模型,缺乏对特定用户概念的个性化知识。之前的文献已经探索了对文本生成进行个性化的方法,但尚不清楚这些方法如何可以适应新的模态,例如图像生成。在本文中,我们介绍了Yo'Chameleon,这是首次尝试研究大型多模式模型的个性化方法。给定某个特定概念的3-5张图片,Yo'Chameleon利用软提示调优来嵌入主题特定的信息,(i) 回答关于该主题的问题以及 (ii) 重建像素级别的细节以在新情境下生成该主题的图片。Yo'Chameleon通过 (i) 自我提示优化机制来平衡多模态性能,以及 (ii) “软正样本”图像生成方法在少数示例设置中增强图像质量来进行训练。