LLM2D

摘要

arXiv:2502.09645v1 交叉论文类型：交叉摘要：否定，这一语言构造用来表达缺席、否认或矛盾，对于多模态的基础模型构成了重大的挑战。这些模型在机器翻译、文本引导生成、图像字幕、音频交互和视频处理等任务上表现出色，但往往难以准确地跨不同语言和文化背景来解读否定。在这篇视角论文中，我们提出了一种全面的否定构造分类，并说明了结构、语义和文化因素如何影响多模态基础模型。我们提出了开放性研究问题，并强调了解决这些问题的重要性，以实现稳健的否定处理。最后，我们倡导建立专门的基准测试、语言特定的分词、细粒度的注意力机制以及先进的多模态架构。这些策略可以促进更加灵活和语义准确的多模态基础模型，使它们能够更好地应对和准确解读多语种、多模态环境中否定的复杂性。