摘要
arXiv:2505.02156v2 社交智能仿真类型:交叉
摘要:有效的社交智能仿真需要语言代理能够动态调整推理深度,这是当前方法中缺乏的一项重要能力。现有方法要么缺乏这种推理能力,要么在所有场景中强制执行统一的长推理链,导致 token 使用过多且社交仿真不适当。在本文中,我们提出了**A**daptive **M**ode **L**earning (AML) 方法,该方法根据实时上下文有策略地选择四种思考模式(直觉反应 → 深思熟虑)。我们框架的核心创新,即**A**daptive **M**ode **P**olicy **O**ptimization (AMPO) 算法,相比现有方法引入了三项关键改进:(1) 多粒度思考模式设计,(2) 在社交互动中上下文感知的模式切换,(3) 通过深度适应性处理实现 token 效率化推理。在社交智能任务上的广泛实验表明,AML 在任务性能上比最先进的方法高出 15.6%。值得注意的是,与 GRPO 相比,我们的方法在推理链缩短 32.8% 的情况下,性能高出 7.0%。这些结果表明,AMPO 实现的上下文感知思考模式选择能够比 GRPO 的固定深度方法实现更接近人类的适应性推理。