LLM2D

摘要

arXiv:2502.00225v1 探索利用类型：跨域摘要：我们评估了当前一代大规模语言模型（LLM）在面对探索与利用权衡时帮助决策代理的能力。我们使用LLM在各种（上下文相关的）多臂老虎机任务中进行探索和利用。我们发现，尽管当前的LLM在利用方面常常遇到困难，但在小规模任务中可以通过上下文内缓解措施显著提高性能。然而，即使在这种情况下，LLM的表现仍然不如简单的线性回归。另一方面，我们发现LLM在探索具有内在语义的大动作空间时确实有所帮助，它们能建议合适的探索候选者。