摘要
arXiv:2503.19815v1 宣告类型: 新
摘要: 具有智能的生物能够解决它们在一生中或进化过程中从未遇到的真正新颖的问题。这种能力的重要组成部分是“思考”的能力,即在心中操作对象、概念和行为,以便计划和评估新问题的可能解决方案,即使在没有环境互动的情况下也是如此。为了生成真正质上新颖的问题,同时仍然可以在心中模拟这些问题,我们利用环境的组合性质:我们在训练代理时保留了环境元素的一种特定组合。基于这种组合的新颖测试任务因此而被保证是真正新颖的,同时仍然可以通过代理在训练期间暴露于每个单独元素(以及它们的成对交互)来心中模拟。我们提出了一种方法,通过根据代理在预先思考和后续思考表现之间的差异来选择任务,来训练具有世界模型的代理利用其心中的模拟能力。当在被保留的新颖问题上进行测试时,最终的代理成功地模拟了替代场景,并利用由此获得的信息来指导其在实际环境中的行为,在一次真实环境试验中解决了新颖任务(零样本)。