摘要
本文探讨了多模态提示中图像和文本的排序如何影响大型语言模型 (LLM) 的推理性能。我们使用三个商用 LLM 进行了实证评估。我们的结果表明,呈现模态的顺序会显著影响性能,尤其是在不同复杂度的任务中。对于涉及单个图像的简单任务,模态排序对准确率有明显影响。然而,在涉及多个图像和复杂推理步骤的更复杂任务中,排序的影响减弱,这可能是由于任务的认知需求增加。我们的发现也强调了问题/提示结构的重要性。在嵌套和多步推理任务中,模态排序在塑造模型性能方面发挥了关键作用。虽然 LLM 在推理的初始阶段表现出色,但它们难以重新整合早期的信息,这突出了转换器架构中多跳推理的挑战。这表明,将模态顺序与推理步骤的逻辑流程对齐比单独的模态顺序更重要。这些见解为改进多模态提示设计提供了宝贵的启示,在教育、医学影像和跨模态学习等领域具有更广泛的应用。