摘要
尽管大型语言模型 (LLMs) 在许多领域取得了成功,但在需要在不确定性条件下进行最佳决策的场景中,它们的研究仍然不足。这一点至关重要,因为从个性化推荐到医疗干预的许多现实世界应用都要求 LLMs 不仅能够预测,而且能够主动学习通过探索做出最佳决策。在这项工作中,我们衡量了 LLMs 在 bandit 问题中的(不)能力,这是一个与许多应用相关的无状态强化学习设置。我们开发了一套全面的环境,包括具有不同任务难度的无上下文和上下文 bandit 问题,以对 LLMs 的性能进行基准测试。受存在最佳探索算法的启发,我们提出了将这种算法知识有效地整合到 LLMs 中的方法:在推理过程中提供显式的算法引导支持;以及通过使用这些算法生成的合成数据,通过上下文演示和微调进行算法蒸馏。令人印象深刻的是,这些技术使我们能够使用更小的模型实现卓越的探索性能,在各种任务上超过了更大的模型。我们进行了广泛的消融研究,以阐明影响 LLM 探索效率的各种因素,例如任务难度和数据表示。此外,我们使用遗憾的概念对 LLM 的探索效率进行了严格的分析,将它探索的能力与其模型大小和底层算法联系起来。