LLM2D
通过奖励塑造和 Curriculum Learning 实现最优组织修复的多智能体强化学习
Achieving Optimal Tissue Repair Through MARL with Reward Shaping and Curriculum Learning
作者: Muhammad Al-Zafar Khan, Jamal Al-Karaki
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10677v1

摘要

arXiv:2504.10677v1 多智能体类型: 跨领域 摘要: 在本文中,我们提出了一种多智能体强化学习(MARL)框架,用于使用工程化生物代理优化组织修复过程。我们的方法包括:(1) 随机反应扩散系统来建模分子信号,(2) 神经样电化学通信带有Hebbian可塑性,以及(3) 结合化学梯度跟踪、神经同步和鲁棒惩罚的生物学启发的奖励函数。通过一种课程学习方案,引导智能体逐步通过越来越复杂的修复场景。模拟实验展示了Emergent修复策略,包括动态分泌控制和空间协调。