LLM2D

摘要

arXiv:2505.02156v1 类别: cross 摘要: 有效的社会智能模拟需要语言代理动态调整推理深度，这是一种当前方法中缺乏的能力。虽然现有的方法要么缺乏这种推理能力，要么要求在所有场景中统一使用长链推理，导致过度使用标记并在社会模拟中不当使用。在本文中，我们提出了基于实时上下文从四种思考模式（直觉反应 → 深思熟虑）中战略性地进行选择的 $\textbf{A}$daptive $\textbf{M}$ode $\textbf{L}$earning ($\textbf{AML}$)。我们框架的核心创新，$\textbf{A}$daptive $\textbf{M}$ode $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{AMPO}$) 算法，相比现有方法引入了三项关键改进：(1) 多粒度思考模式设计，(2) 社交互动中上下文感知模式切换，以及 (3) 通过深度适应处理实现高效推理。在社会智能任务上的广泛实验表明，AML 在任务性能上比最新方法高出 15.6%。值得注意的是，与 GRPO 相比，尽管推理链较短 32.8%，但我们的方法的性能提高了 7.0%。这些结果表明，在 AMPO 中实现的上下文感知思考模式选择能够比 GRPO 的固定深度方法实现更接近人类的自适应推理。