LLM2D
位置:多模态大规模语言模型可以显著推动科学研究
Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning
作者: Yibo Yan, Shen Wang, Jiahao Huo, Jingheng Ye, Zhendong Chu, Xuming Hu, Philip S. Yu, Carla Gomes, Bart Selman, Qingsong Wen
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.02871v1

摘要

arXiv:2502.02871v1 种类: cross 摘要:科学推理,即人类通过逻辑、证据和批判性思维来探索和解释科学现象的过程,在跨学科的知识推理提升中是至关重要的。尽管取得了显著进展,当前的科学推理模型在跨领域的一般泛化方面仍然面临挑战,通常在多模态感知方面表现不足。将文本、图像和其他模态整合的多模态大型语言模型(MLLMs)为克服这些限制和增强科学推理提供了令人兴奋的机会。因此,本文认为MLLMs可以在数学、物理、化学和生物学等学科中显著推进科学推理。首先,我们提出了一种科学推理能力的四阶段研究路线图,并强调了MLLM在科学推理中的当前应用状态,指出它们能够综合并处理多种数据类型的能力。其次,我们总结了实现MLLM最大潜力所面临的几个关键挑战。为了解决这些挑战,我们提出了未来可行的见解和建议。总体而言,我们的工作为MLLM与科学推理的整合提供了新颖的视角,为LLM社区提供了实现通用人工智能(AGI)的宝贵愿景。