摘要
arXiv:2505.09396v1 宣告类型: 新
摘要:大型语言模型(LLMs)的迅速崛起已将人工智能(AI)研究转向自主系统,从而激发了使用更弱且更具弹性的自主概念。然而,这一转变提出了关键问题,即基于LLM的代理在游戏论环境中的策略性推理是否与人类相复制。在此背景下,我们通过评估三种代理设计来探讨自主精熟度在塑造人工推理性能中的作用:一个简单的博弈论模型,一个结构化不强的LLM代理模型,以及一个将LLM集成到传统自主框架中的设计。利用猜谜游戏作为测试平台,我们跨一般推理模式和个体基于角色的目标,在人类参与者与这些代理的基准测试中评估了这些代理的表现。此外,我们引入了混淆的博弈情景,以评估代理超越训练分布模式的一般化能力。我们的分析涵盖了25种代理配置下的2000多个推理样本,表明灵感源自人类的认知结构可以增强LLM代理与人类战略行为的对齐。然而,自主设计复杂度与拟人化的关系是非线性的,突显出对底层LLM能力的强烈依赖性,并建议简单的架构改进存在局限性。