LLM2D

摘要

arXiv:2504.15903v1 宣布类型: 新摘要: 近期大型语言模型（LLMs）的进步引发了对其结构推理能力的兴趣，尤其是在涉及抽象和模式识别的任务中。抽象和推理语料库（ARC）基准在评估这些能力方面发挥着关键作用，通过测试AI模型在处理新颖问题时的泛化能力。虽然GPT-4o在零噪声条件下表现出色，成功解决了所有ARC任务，但其他模型如DeepSeek R1和LLaMA 3.2却未能解决任何问题，这表明它们在超越简单模式匹配进行推理方面的局限性。为探索这一差距，我们在不同的噪声水平和温度设置下系统地评估了这些模型。我们的结果表明，无论模型架构如何，引入噪声都会一致性地损害模型性能。这种下降强调了一个共同的脆弱点：尽管当前的LLM显示出抽象推理的迹象，但它们对输入扰动仍然非常敏感。这种脆弱性引起了人们对它们在实际应用中的适用性的担忧，因为在实际应用中噪声和不确定性是很常见的。通过比较不同模型架构在这些挑战下的响应，我们提供了有关现代LLM推理任务中结构弱点的见解。这项工作强调了开发更具鲁棒性和适应性的AI系统的需求，这些系统能够处理现实世界场景中固有的模糊性和变异性。我们的发现旨在引导未来的研究朝着提高模型泛化能力、鲁棒性和与人类认知灵活性对齐的方向发展。