摘要
arXiv:2504.15903v1 宣布类型: 新
摘要: 近期大型语言模型(LLMs)的进步引发了对其结构推理能力的兴趣,尤其是在涉及抽象和模式识别的任务中。抽象和推理语料库(ARC)基准在评估这些能力方面发挥着关键作用,通过测试AI模型在处理新颖问题时的泛化能力。虽然GPT-4o在零噪声条件下表现出色,成功解决了所有ARC任务,但其他模型如DeepSeek R1和LLaMA 3.2却未能解决任何问题,这表明它们在超越简单模式匹配进行推理方面的局限性。为探索这一差距,我们在不同的噪声水平和温度设置下系统地评估了这些模型。我们的结果表明,无论模型架构如何,引入噪声都会一致性地损害模型性能。这种下降强调了一个共同的脆弱点:尽管当前的LLM显示出抽象推理的迹象,但它们对输入扰动仍然非常敏感。这种脆弱性引起了人们对它们在实际应用中的适用性的担忧,因为在实际应用中噪声和不确定性是很常见的。通过比较不同模型架构在这些挑战下的响应,我们提供了有关现代LLM推理任务中结构弱点的见解。这项工作强调了开发更具鲁棒性和适应性的AI系统的需求,这些系统能够处理现实世界场景中固有的模糊性和变异性。我们的发现旨在引导未来的研究朝着提高模型泛化能力、鲁棒性和与人类认知灵活性对齐的方向发展。