LLM2D

摘要

arXiv:2502.02871v1 种类: cross 摘要：科学推理，即人类通过逻辑、证据和批判性思维来探索和解释科学现象的过程，在跨学科的知识推理提升中是至关重要的。尽管取得了显著进展，当前的科学推理模型在跨领域的一般泛化方面仍然面临挑战，通常在多模态感知方面表现不足。将文本、图像和其他模态整合的多模态大型语言模型（MLLMs）为克服这些限制和增强科学推理提供了令人兴奋的机会。因此，本文认为MLLMs可以在数学、物理、化学和生物学等学科中显著推进科学推理。首先，我们提出了一种科学推理能力的四阶段研究路线图，并强调了MLLM在科学推理中的当前应用状态，指出它们能够综合并处理多种数据类型的能力。其次，我们总结了实现MLLM最大潜力所面临的几个关键挑战。为了解决这些挑战，我们提出了未来可行的见解和建议。总体而言，我们的工作为MLLM与科学推理的整合提供了新颖的视角，为LLM社区提供了实现通用人工智能（AGI）的宝贵愿景。