LLM2D

摘要

arXiv:2504.20998v1 交叉类型公告摘要：大型多模式模型（例如，GPT-4、Gemini、Chameleon）已经成为具有数百万用户的强大工具。然而，它们仍然是通用模型，缺乏对特定用户概念的个性化知识。之前的文献已经探索了对文本生成进行个性化的方法，但尚不清楚这些方法如何可以适应新的模态，例如图像生成。在本文中，我们介绍了Yo'Chameleon，这是首次尝试研究大型多模式模型的个性化方法。给定某个特定概念的3-5张图片，Yo'Chameleon利用软提示调优来嵌入主题特定的信息，(i) 回答关于该主题的问题以及 (ii) 重建像素级别的细节以在新情境下生成该主题的图片。Yo'Chameleon通过 (i) 自我提示优化机制来平衡多模态性能，以及 (ii) “软正样本”图像生成方法在少数示例设置中增强图像质量来进行训练。