摘要
arXiv:2502.02871v1 种类: cross
摘要:科学推理,即人类通过逻辑、证据和批判性思维来探索和解释科学现象的过程,在跨学科的知识推理提升中是至关重要的。尽管取得了显著进展,当前的科学推理模型在跨领域的一般泛化方面仍然面临挑战,通常在多模态感知方面表现不足。将文本、图像和其他模态整合的多模态大型语言模型(MLLMs)为克服这些限制和增强科学推理提供了令人兴奋的机会。因此,本文认为MLLMs可以在数学、物理、化学和生物学等学科中显著推进科学推理。首先,我们提出了一种科学推理能力的四阶段研究路线图,并强调了MLLM在科学推理中的当前应用状态,指出它们能够综合并处理多种数据类型的能力。其次,我们总结了实现MLLM最大潜力所面临的几个关键挑战。为了解决这些挑战,我们提出了未来可行的见解和建议。总体而言,我们的工作为MLLM与科学推理的整合提供了新颖的视角,为LLM社区提供了实现通用人工智能(AGI)的宝贵愿景。