摘要
arXiv:2505.02156v1 类别: cross
摘要: 有效的社会智能模拟需要语言代理动态调整推理深度,这是一种当前方法中缺乏的能力。虽然现有的方法要么缺乏这种推理能力,要么要求在所有场景中统一使用长链推理,导致过度使用标记并在社会模拟中不当使用。在本文中,我们提出了基于实时上下文从四种思考模式(直觉反应 → 深思熟虑)中战略性地进行选择的 $\textbf{A}$daptive $\textbf{M}$ode $\textbf{L}$earning ($\textbf{AML}$)。我们框架的核心创新,$\textbf{A}$daptive $\textbf{M}$ode $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{AMPO}$) 算法,相比现有方法引入了三项关键改进:(1) 多粒度思考模式设计,(2) 社交互动中上下文感知模式切换,以及 (3) 通过深度适应处理实现高效推理。在社会智能任务上的广泛实验表明,AML 在任务性能上比最新方法高出 15.6%。值得注意的是,与 GRPO 相比,尽管推理链较短 32.8%,但我们的方法的性能提高了 7.0%。这些结果表明,在 AMPO 中实现的上下文感知思考模式选择能够比 GRPO 的固定深度方法实现更接近人类的自适应推理。