LLM2D
揭示文本、图像、视频和音频基础模型中的幻觉:全面综述
Unveiling Hallucination in Text, Image, Video, and Audio Foundation Models: A Comprehensive Survey
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2405.09589v3

摘要

基础模型(FMs)在语言、图像、音频和视频领域的快速发展展示了其在各种任务中的显著能力。然而,基础模型的普及带来了一个关键挑战:生成幻觉输出的潜在风险,特别是在高风险应用中。基础模型产生幻觉内容的倾向可以说是其在真实世界场景中广泛应用的最大障碍,尤其是在可靠性和准确性至关重要的领域。这篇综述论文全面概述了旨在识别和缓解基础模型幻觉问题的最新发展,涵盖了文本、图像、视频和音频多种模态。通过综合最近在检测和缓解各种模态幻觉方面的进展,本文旨在为研究人员、开发人员和从业者提供有价值的见解。本质上,它建立了一个明确的框架,涵盖了多模态基础模型幻觉问题的定义、分类和检测策略,为这一重要领域的未来研究奠定了基础。