LLM2D

摘要

arXiv:2504.04711v1 宣告类型: 新摘要: 当前的大语言模型（LLMs）受到人类衍生的训练数据的限制，并且由于单一抽象层次的限制，无法做出明确的真实判断。本文介绍了一种新的框架，在这种框架中，AI模型通过直接与其环境交互自主生成和验证新的知识。这种方法的核心是一种无边界、无法作弊的数值奖励——例如附带的磁盘空间或追随者数量——这种奖励指导学习，而无需设定人类基准。AI代理通过迭代生成策略和可执行代码来最大化这个指标，成功的成果则作为自我重新训练和逐步泛化的基础。为了缓解模型崩塌和预热启动问题，该框架强调实证验证胜过文本相似性，并通过GRPO支持微调。系统架构采用模块化的代理进行环境分析、策略生成和代码合成，从而实现可扩展的实验。本文概述了一条通往自我改进的AI系统的发展路径，这些系统能够超越人类施加的限制，朝着自主通用人工智能的方向发展。