摘要
arXiv:2504.04711v1 宣告类型: 新
摘要: 当前的大语言模型(LLMs)受到人类衍生的训练数据的限制,并且由于单一抽象层次的限制,无法做出明确的真实判断。本文介绍了一种新的框架,在这种框架中,AI模型通过直接与其环境交互自主生成和验证新的知识。这种方法的核心是一种无边界、无法作弊的数值奖励——例如附带的磁盘空间或追随者数量——这种奖励指导学习,而无需设定人类基准。AI代理通过迭代生成策略和可执行代码来最大化这个指标,成功的成果则作为自我重新训练和逐步泛化的基础。为了缓解模型崩塌和预热启动问题,该框架强调实证验证胜过文本相似性,并通过GRPO支持微调。系统架构采用模块化的代理进行环境分析、策略生成和代码合成,从而实现可扩展的实验。本文概述了一条通往自我改进的AI系统的发展路径,这些系统能够超越人类施加的限制,朝着自主通用人工智能的方向发展。