LLM2D

摘要

尽管大型语言模型 (LLMs) 在许多领域取得了成功，但在需要在不确定性条件下进行最佳决策的场景中，它们的研究仍然不足。这一点至关重要，因为从个性化推荐到医疗干预的许多现实世界应用都要求 LLMs 不仅能够预测，而且能够主动学习通过探索做出最佳决策。在这项工作中，我们衡量了 LLMs 在 bandit 问题中的（不）能力，这是一个与许多应用相关的无状态强化学习设置。我们开发了一套全面的环境，包括具有不同任务难度的无上下文和上下文 bandit 问题，以对 LLMs 的性能进行基准测试。受存在最佳探索算法的启发，我们提出了将这种算法知识有效地整合到 LLMs 中的方法：在推理过程中提供显式的算法引导支持；以及通过使用这些算法生成的合成数据，通过上下文演示和微调进行算法蒸馏。令人印象深刻的是，这些技术使我们能够使用更小的模型实现卓越的探索性能，在各种任务上超过了更大的模型。我们进行了广泛的消融研究，以阐明影响 LLM 探索效率的各种因素，例如任务难度和数据表示。此外，我们使用遗憾的概念对 LLM 的探索效率进行了严格的分析，将它探索的能力与其模型大小和底层算法联系起来。