LLM2D

摘要

arXiv:2504.15313v1 宣布类型: 新摘要：多智能体由于大型语言模型（LLMs）的能力，已经在现实世界的模拟中展示了显著的智能，尤其是在社交认知和知识检索方面。然而，现有研究在涉及有效的认知链（包括推理、规划、决策和反思）的智能体方面仍然有限，尤其是在动态互动场景中。此外，与人类不同，在不确定的游戏过程中，基于提示的响应面临着心理状态感知和经验校准方面的挑战，这不可避免地会导致认知偏差。鉴于以上问题，我们介绍了PolicyEvol-Agent，这是一种系统地获取他人意图并适应性优化非理性策略以实现持续增强的全面LLM赋能框架。具体来说，PolicyEvol-Agent 首先获取反思专长模式，然后结合心智理论整合一系列认知操作，同时包含内外部视角。模拟结果表明，PolicyEvol-Agent 在最终游戏胜利方面优于基于强化学习的模型和基于智能体的方法。此外，策略演化机制在自动评估和人工评估中都显示了动态指导方针调整的有效性。