摘要
arXiv:2504.20998v1 交叉类型公告
摘要:大型多模式模型(例如,GPT-4、Gemini、Chameleon)已经成为具有数百万用户的强大工具。然而,它们仍然是通用模型,缺乏对特定用户概念的个性化知识。之前的文献已经探索了对文本生成进行个性化的方法,但尚不清楚这些方法如何可以适应新的模态,例如图像生成。在本文中,我们介绍了Yo'Chameleon,这是首次尝试研究大型多模式模型的个性化方法。给定某个特定概念的3-5张图片,Yo'Chameleon利用软提示调优来嵌入主题特定的信息,(i) 回答关于该主题的问题以及 (ii) 重建像素级别的细节以在新情境下生成该主题的图片。Yo'Chameleon通过 (i) 自我提示优化机制来平衡多模态性能,以及 (ii) “软正样本”图像生成方法在少数示例设置中增强图像质量来进行训练。