LLM2D
从语言巨人到感官大师:基于大型语言模型的跨模态推理综述
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models
作者: Shengsheng Qian, Zuyi Zhou, Dizhan Xue, Bing Wang, Changsheng Xu
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.18996v1

摘要

跨模态推理 (CMR) 是一种复杂的过程,它综合和推断来自不同感官模态的信息,并日益被认为是通往更复杂、更具人形的人工智能系统发展道路上的关键能力。大型语言模型 (LLMs) 是一类专门设计用于解析、生成和与人类语言进行大规模交互的人工智能算法。最近将 LLM 用于解决 CMR 任务的趋势标志着一种增强其有效性的新主流方法。本综述详细阐述了当前使用 LLM 在 CMR 中应用的方法,并将这些方法归类为一个详细的三层分类法。此外,本综述深入探讨了该领域原型模型的主要设计策略和操作技术。此外,它还阐述了将 LLM 整合到 CMR 中所面临的普遍挑战,并确定了未来的研究方向。总之,本综述旨在通过为学者提供一个全面的、详细的视野来加速该新兴领域的发展,展示当前研究的前沿,同时指出潜在的进步途径。一个收集相关论文的 GitHub 存储库可以在 https://github.com/ZuyiZhou/Awesome-Cross-modal-Reasoning-with-LLMs 找到。