摘要
arXiv:2502.09645v1 交叉论文类型:交叉
摘要:否定,这一语言构造用来表达缺席、否认或矛盾,对于多模态的基础模型构成了重大的挑战。这些模型在机器翻译、文本引导生成、图像字幕、音频交互和视频处理等任务上表现出色,但往往难以准确地跨不同语言和文化背景来解读否定。在这篇视角论文中,我们提出了一种全面的否定构造分类,并说明了结构、语义和文化因素如何影响多模态基础模型。我们提出了开放性研究问题,并强调了解决这些问题的重要性,以实现稳健的否定处理。最后,我们倡导建立专门的基准测试、语言特定的分词、细粒度的注意力机制以及先进的多模态架构。这些策略可以促进更加灵活和语义准确的多模态基础模型,使它们能够更好地应对和准确解读多语种、多模态环境中否定的复杂性。