摘要
arXiv:2403.16843v4 更新类型: replace-cross
摘要: 大型语言模型(LLMs)已被越来越多地用于(交互式)决策中,通过基于LLM的自主代理的发展。尽管它们在决策任务中取得了显著的成功,但LLM代理在决策中的性能尚未通过定量指标进行全面研究,尤其是在它们相互交互的多智能体设置中,这是当前LLM代理应用中一个典型的场景。为了更好地理解LLM代理在这些交互环境中的限制,我们建议通过绩效指标“遗憾”在在线学习和博弈论的标准决策制定设置中研究它们的交互。我们首先从经验上研究LLM在经典的(非平稳)在线学习问题中的无遗憾行为,以及当LLM代理通过反复玩游戏相互交互时,它们之间的平衡现象的出现。然后,在某些关于监督预训练和生成数据的人类决策制定者理性模型的假设下,我们对LLM代理的无遗憾行为提供了一些理论见解。值得注意的是,我们还发现了GPT-4等先进LLM在无遗憾行为方面失败的情况。为了促进无遗憾行为,我们提出了一个新颖的无监督训练损失“遗憾损失”,与监督预训练损失不同,该损失不需要(最优)动作的标签。然后,我们为遗憾损失最小化建立了统计保证泛化界限,并探讨了最小化这种损失可能会自动导致已知无遗憾学习算法的优化保证。进一步的实验表明了我们提出的遗憾损失的有效性,尤其是在解决上述“遗憾”情况方面的优势。