LLM2D

摘要

arXiv:2505.02156v2 社交智能仿真类型：交叉摘要：有效的社交智能仿真需要语言代理能够动态调整推理深度，这是当前方法中缺乏的一项重要能力。现有方法要么缺乏这种推理能力，要么在所有场景中强制执行统一的长推理链，导致 token 使用过多且社交仿真不适当。在本文中，我们提出了**A**daptive **M**ode **L**earning (AML) 方法，该方法根据实时上下文有策略地选择四种思考模式（直觉反应 → 深思熟虑）。我们框架的核心创新，即**A**daptive **M**ode **P**olicy **O**ptimization (AMPO) 算法，相比现有方法引入了三项关键改进：(1) 多粒度思考模式设计，(2) 在社交互动中上下文感知的模式切换，(3) 通过深度适应性处理实现 token 效率化推理。在社交智能任务上的广泛实验表明，AML 在任务性能上比最先进的方法高出 15.6%。值得注意的是，与 GRPO 相比，我们的方法在推理链缩短 32.8% 的情况下，性能高出 7.0%。这些结果表明，AMPO 实现的上下文感知思考模式选择能够比 GRPO 的固定深度方法实现更接近人类的适应性推理。