LLM2D

摘要

arXiv:2501.18009v2 宣告类型：替换摘要：大型语言模型（LLMs）已经发展出了许多认知能力。尽管许多基准测试评估了它们的智能水平，但对其探索能力的关注却很少，而探索能力对于在自然和人工系统中发现新信息并适应新环境是至关重要的。LLMs 在有效探索方面，特别是在开放式任务中，其潜力仍然不清楚。这项研究考察了LLMs是否能在开放式任务中超越人类的探索能力，使用 Little Alchemy 2 作为范例，其中代理将元素组合以发现新的元素。结果表明，大多数LLMs的表现不如人类，除了o1模型，传统的LLMs主要依赖于不确定性驱动的策略，而人类则在不确定性与赋能之间保持平衡。结果显示，传统的以推理为重点的LLMs，如GPT-4o，展示了显著更快且更细致的推理过程，限制了它们的探索表现。相比之下，DeepSeek推理模型展示了延长的、迭代的思维过程，标有重复分析组合及以往试验的特点，反映出一种更为彻底且人类似乎的探索策略。通过对模型的表示性分析得出，不确定性与选择在较早的变换器块中得到表示，而赋能值则在较晚的阶段处理，导致LLMs思考过快并做出过早的决定，阻碍了有效的探索。这些发现揭示了LLMs探索能力的局限性，并指明了提高其适应性的方向。