LLM2D

摘要

arXiv:2504.14429v1 宣传类型：跨领域摘要：大型语言模型（LLMs）已经改变了自然语言处理（NLP）任务，但它们遭受幻觉问题，即生成虽然看似合理但事实错误的内容。这一问题也延伸到视频语言模型（VideoLLMs），其中生成的文本描述可能不准确地代表视觉内容，导致多模态幻觉。在本文中，我们针对结合了ResNet视觉编解码器和LLMs的VideoLLM模型中的幻觉问题进行了研究。我们引入了一个两步协议：（1）一种忠实度检测策略，使用修改后的Lynx模型来评估生成的字幕与真实视频参考之间的语义对齐，以及（2）一种使用检索增强生成（RAG）的幻觉缓解策略，其中在推理过程中动态构建了一个临时知识库。通过增强模型ResNetVLLM-2，在外部知识的交叉验证下生成的内容提高了事实一致性。在ActivityNet-QA基准测试上的评估表明，准确率从54.8%提高到65.3%，突显了我们幻觉检测和缓解策略在增强视频语言模型可靠性方面有效性的提升。