LLM2D
基于检索增强个性化的大规模多模态语言模型
RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models
作者: Haoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2410.13360v3

摘要

arXiv:2410.13360v3 公告类型: replace-cross 摘要:大型语言模型(LLMs)的发展显著增强了多模态LLMs(MLLMs)作为通用助手的能力。然而,缺乏用户特定的知识仍然限制了它们在人们日常生活中的应用。在本文中,我们介绍了用于多模态LLMs个性化的一种检索增强个性化(RAP)框架。我们从一个通用的MLLM出发,通过三个步骤将其转变为个性化的助手。(a)记住:我们设计了一个键值数据库,用于存储用户相关信息,例如用户姓名、头像和其他属性。(b)检索:当用户发起对话时,RAP将使用多模态检索器从数据库中检索相关信息。(c)生成:将输入查询和检索到的概念信息输入MLLM,生成个性化、知识增强的响应。与之前的 方法不同,RAP允许通过更新外部数据库来进行实时概念编辑。为了进一步提高生成质量和与用户特定信息的一致性,我们设计了一个数据收集流水线,并创建了一个专门的数据集,用于个性化训练MLLMs。基于此数据集,我们训练了一系列个性化的多模态助手。利用大规模数据集进行预训练后,RAP-MLLMs可以在无需额外微调的情况下泛化到无限视觉概念。我们的模型在各种任务,如个性化图像字幕生成、问答和视觉识别方面展示了出色的灵活性和生成质量。相关代码、数据和模型可从https://hoar012.github.io/RAP-Project/ 获取。