摘要
arXiv:2502.01081v1 交叉类型: 公告
摘要:OpenAI 的 o1 和 o3 的发布标志着大型语言模型向高级推理能力的一个重要范式转变。值得注意的是,o3 在人工通用智能抽象和推理语料库(ARC-AGI)的新型问题解决和技能获取方面超过了人类。然而,这一基准仅限于符号模式,而人类通常会处理涉及视觉和语言数据的多模态场景。因此,需要迫切研究多模态任务中的高级推理能力。为此,我们跟踪了 GPT-[n] 和 o-[n] 系列模型在具有精细视觉感知和抽象或算法推理要求的挑战性多模态谜题上的演化。o1 的优异表现几乎是 GPT-4o 计算成本的 750 倍,引发了对其效率的担忧。我们的结果显示,推理能力在模型迭代中呈现出明显的上升趋势,GPT 系列模型之间的性能跃升尤为显著,随后是 o1。然而,我们观察到 o1 模型仍然在需要抽象推理的简单多模态谜题上存在问题。此外,其在算法谜题上的表现也很差。我们计划继续跟踪该系列中的新模型,并相应地更新本论文中的结果。所有用于此评估的资源均可公开获得:https://github.com/declare-lab/LLM-PuzzleTest。