摘要
多模态大型语言模型(MLLM)利用文本、图像或视频组成的多模态上下文来解决各种多模态任务。然而,我们发现改变多模态输入的顺序会导致模型的性能在先进性能和随机猜测之间波动。这种现象存在于单模态(仅文本或仅图像)和混合模态(图像文本对)上下文中。此外,我们证明流行的MLLM特别关注某些多模态上下文位置,特别是开头和结尾。利用这种特殊关注,我们将关键视频帧和重要的图像/文本内容放置在上下文中的特殊位置,并将它们提交给MLLM进行推理。这种方法使视频字幕匹配任务的平均性能提高了14.7%,视觉问答任务的平均性能提高了17.8%。此外,我们提出了一种新的指标,即位置不变精度(PIA),以解决MLLM评估中的顺序偏差问题。我们的研究结果有助于更好地理解多模态上下文学习(MMICL),并为提高MLLM性能提供切实可行的策略,而无需增加计算成本。