LLM2D

摘要

跨模态推理 (CMR) 是一种复杂的过程，它综合和推断来自不同感官模态的信息，并日益被认为是通往更复杂、更具人形的人工智能系统发展道路上的关键能力。大型语言模型 (LLMs) 是一类专门设计用于解析、生成和与人类语言进行大规模交互的人工智能算法。最近将 LLM 用于解决 CMR 任务的趋势标志着一种增强其有效性的新主流方法。本综述详细阐述了当前使用 LLM 在 CMR 中应用的方法，并将这些方法归类为一个详细的三层分类法。此外，本综述深入探讨了该领域原型模型的主要设计策略和操作技术。此外，它还阐述了将 LLM 整合到 CMR 中所面临的普遍挑战，并确定了未来的研究方向。总之，本综述旨在通过为学者提供一个全面的、详细的视野来加速该新兴领域的发展，展示当前研究的前沿，同时指出潜在的进步途径。一个收集相关论文的 GitHub 存储库可以在 https://github.com/ZuyiZhou/Awesome-Cross-modal-Reasoning-with-LLMs 找到。