LLM2D

摘要

在过去十年中，自由能原理 (FEP) 和主动推断 (AIF) 在将学习和认知的概念模型与感知和行动的数学模型联系起来方面取得了许多成功。这项工作是由对理解自组织复杂自适应系统（包括能动性因素）各个方面的多学科兴趣驱动的。人们已经提出了各种执行主动推断的强化学习 (RL) 模型，并使用深度神经网络在标准 RL 任务上对其进行了训练。最近的工作重点是通过结合最新的机器学习技术来提高这些智能体在复杂环境中的性能。在本文中，我们采取了一种替代方法。在 FEP 和 AIF 施加的约束条件下，我们尝试通过引入自由能投射模拟 (FEPS) 来以一种可解释的方式对智能体进行建模，而无需使用深度神经网络。仅使用内部奖励，FEPS 智能体构建了其与之交互的部分可观测环境的表示。遵循 AIF，通过最小化预期自由能从该世界模型中推导出实现给定任务的策略。利用模型的可解释性，引入了一些技术来处理长期目标并减少由错误的隐藏状态估计引起的预测误差。我们在两个受行为生物学启发的 RL 环境中测试了 FEPS 模型：一个定时反应任务和一个部分可观测网格中的导航任务。我们的结果表明，FEPS 智能体仅基于预测精度适当地将它们的观察结果置于上下文中，从而完全消除了这两个环境的歧义。此外，它们能够灵活地为环境中的任何目标观测推断最优策略。