LLM2D
从无到知:多模态基础模型中否定理解的分类、挑战与机遇
From No to Know: Taxonomy, Challenges, and Opportunities for Negation Understanding in Multimodal Foundation Models
作者: Mayank Vatsa, Aparna Bharati, Surbhi Mittal, Richa Singh
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09645v1

摘要

arXiv:2502.09645v1 交叉论文类型:交叉 摘要:否定,这一语言构造用来表达缺席、否认或矛盾,对于多模态的基础模型构成了重大的挑战。这些模型在机器翻译、文本引导生成、图像字幕、音频交互和视频处理等任务上表现出色,但往往难以准确地跨不同语言和文化背景来解读否定。在这篇视角论文中,我们提出了一种全面的否定构造分类,并说明了结构、语义和文化因素如何影响多模态基础模型。我们提出了开放性研究问题,并强调了解决这些问题的重要性,以实现稳健的否定处理。最后,我们倡导建立专门的基准测试、语言特定的分词、细粒度的注意力机制以及先进的多模态架构。这些策略可以促进更加灵活和语义准确的多模态基础模型,使它们能够更好地应对和准确解读多语种、多模态环境中否定的复杂性。