LLM2D
通过多代理 reinforcement 学习实现 LLMs 的元思考:一个综述
Meta-Thinking in LLMs via Multi-Agent Reinforcement Learning: A Survey
作者: Ahsan Bilal, Muhammad Ahmed Mohsin, Muhammad Umer, Muhammad Awais Khan Bangash, Muhammad Ali Jamshed
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14520v1

摘要

arXiv:2504.14520v1 元类型思考类型:新 摘要:本文综述了从多代理强化学习(MARL)视角考察大型语言模型(LLMs)元思考能力的发展。元思考涉及自我反思、评估和控制思维过程,这是增强LLM可靠性、灵活性和性能的重要下一步,特别是在复杂或高风险任务中。本文首先分析了当前LLM的限制,如虚幻和缺少内部自我评估机制。随后讨论了更先进的方法,包括从人类反馈中学习的强化学习(RLHF)、自蒸馏以及思维链提示,并分析了每种方法的局限性。本文的核心在于探讨多代理架构,例如监督代理层次结构、代理辩论和心智理论框架,如何模拟人类的内省行为,并增强LLM的鲁棒性。通过对MARL中的奖励机制、自我对弈和连续学习方法的探索,本文提供了一条全面的道路,以构建内省、适应性强且值得信赖的LLM。此外,还讨论了评估指标、数据集以及未来的研究方向,包括受神经科学启发的架构和混合符号推理。