摘要
人类学习的关键在于从错误中汲取教训,通过反馈进行调整,并不断完善理解,而这些过程在传统的静态机器学习模型中往往缺失。本研究引入了复合学习单元 (CLUs),旨在将推理模型(例如大型语言模型 (LLMs))转变为能够进行泛化、持续学习的学习者,无需传统的参数更新,同时通过持续的交互和反馈来增强其推理能力。CLUs 基于一种架构,允许推理模型维护和发展动态知识库:一个用于广泛、可复用见解的通用知识空间,以及一个用于特定任务学习的提示特定知识空间。通过目标驱动的交互,CLUs 迭代地细化这些知识空间,使系统能够动态适应复杂任务,提取细致入微的见解,并自主地借鉴过往经验。我们通过一项密码推理任务证明了 CLUs 的有效性,其中 CLUs 通过反馈不断发展其理解,以揭示隐藏的转换规则。虽然传统模型难以掌握底层逻辑,但 CLUs 通过参与迭代、目标导向的过程而脱颖而出。专门的组件——负责知识检索、提示生成和反馈分析——在强化反馈循环中协同工作。这种方法使 CLUs 能够保留过去失败和成功的记忆,自主地适应,并有效地应用复杂的推理,从错误中持续学习,同时也能在突破的基础上不断进步。