LLM2D

摘要

arXiv:2410.13360v3 公告类型: replace-cross 摘要：大型语言模型（LLMs）的发展显著增强了多模态LLMs（MLLMs）作为通用助手的能力。然而，缺乏用户特定的知识仍然限制了它们在人们日常生活中的应用。在本文中，我们介绍了用于多模态LLMs个性化的一种检索增强个性化（RAP）框架。我们从一个通用的MLLM出发，通过三个步骤将其转变为个性化的助手。（a）记住：我们设计了一个键值数据库，用于存储用户相关信息，例如用户姓名、头像和其他属性。（b）检索：当用户发起对话时，RAP将使用多模态检索器从数据库中检索相关信息。（c）生成：将输入查询和检索到的概念信息输入MLLM，生成个性化、知识增强的响应。与之前的方法不同，RAP允许通过更新外部数据库来进行实时概念编辑。为了进一步提高生成质量和与用户特定信息的一致性，我们设计了一个数据收集流水线，并创建了一个专门的数据集，用于个性化训练MLLMs。基于此数据集，我们训练了一系列个性化的多模态助手。利用大规模数据集进行预训练后，RAP-MLLMs可以在无需额外微调的情况下泛化到无限视觉概念。我们的模型在各种任务，如个性化图像字幕生成、问答和视觉识别方面展示了出色的灵活性和生成质量。相关代码、数据和模型可从https://hoar012.github.io/RAP-Project/ 获取。