摘要
arXiv:2505.10543v1 宣布类型: 新颖
摘要: 尽管大型语言模型在静态基准测试中表现出色,但大型语言模型作为自学习和推理代理在动态环境中的真实潜力仍不清楚。本研究系统评估了自省、启发式变异和规划作为提示技术的有效性,以测试代理的适应能力。我们使用各种开源语言模型在动态环境中进行实验,发现通常较大的模型优于较小的模型,但战略性提示可以缩小这一性能差距。其次,过长的提示对较小模型的基本反应任务有负面影响,而较大的模型表现出更加稳健的行为。第三,高级提示技术主要对复杂游戏中的较小模型有益,但对于已经表现优异的大型语言模型的改进较少。然而,我们发现高级推理方法会导致结果高度不稳定:在推理和决策一致时,这些方法可以显著提高性能,但也可能引入不稳定性和导致性能大幅下降。与人类性能相比,我们的研究结果几乎没有证据表明真正新兴的推理能力。相反,大型语言模型在计划、推理和空间协调等领域显示出持续的局限性,表明当前的大型语言模型仍存在根本性的不足,这些不足可能无法仅通过自我反省提示完全克服。推理是一个多方面的任务,尽管像思维链这样的推理方法在数学文字问题的多步推理中有所改进,但我们的研究使用动态基准测试突出了一般推理能力中的重要不足,表明需要超越静态基准测试以捕捉推理的复杂性。