LLM2D

摘要

人类学习的关键在于从错误中汲取教训，通过反馈进行调整，并不断完善理解，而这些过程在传统的静态机器学习模型中往往缺失。本研究引入了复合学习单元 (CLUs)，旨在将推理模型（例如大型语言模型 (LLMs)）转变为能够进行泛化、持续学习的学习者，无需传统的参数更新，同时通过持续的交互和反馈来增强其推理能力。CLUs 基于一种架构，允许推理模型维护和发展动态知识库：一个用于广泛、可复用见解的通用知识空间，以及一个用于特定任务学习的提示特定知识空间。通过目标驱动的交互，CLUs 迭代地细化这些知识空间，使系统能够动态适应复杂任务，提取细致入微的见解，并自主地借鉴过往经验。我们通过一项密码推理任务证明了 CLUs 的有效性，其中 CLUs 通过反馈不断发展其理解，以揭示隐藏的转换规则。虽然传统模型难以掌握底层逻辑，但 CLUs 通过参与迭代、目标导向的过程而脱颖而出。专门的组件——负责知识检索、提示生成和反馈分析——在强化反馈循环中协同工作。这种方法使 CLUs 能够保留过去失败和成功的记忆，自主地适应，并有效地应用复杂的推理，从错误中持续学习，同时也能在突破的基础上不断进步。