LLM2D
利用强化学习探索社会环境模拟,构建理想的气候轨迹
Crafting desirable climate trajectories with RL explored socio-environmental simulations
作者: James Rudd-Jones, Fiona Thendean, Mar\'ia P\'erez-Ortiz
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07287v1

摘要

气候变化对人类生存构成威胁,因此需要有效的应对气候政策来推动变革。这一领域的决策极其复杂,涉及利益冲突的各方和证据。在过去几十年中,政策制定者越来越多地使用模拟和计算方法来指导决策。综合评估模型 (IAM) 就是其中一种方法,它结合了社会、经济和环境模拟,以预测政策的潜在影响。例如,联合国在其最近的政府间气候变化专门委员会 (IPCC) 报告中使用了 IAM 的输出。传统上,这些模型使用递归方程求解器来解决,但存在一些缺点,例如在不确定性条件下难以决策。最近,使用强化学习 (RL) 来替代传统求解器进行的初步工作表明,在不确定和噪声场景中,强化学习在决策方面取得了可喜的成果。我们扩展了这项工作,引入了多个相互作用的 RL 智能体,对模拟各种利益相关者或国家之间复杂的社会互动进行了初步分析,这些互动推动了当前的气候危机。我们的研究结果表明,在这种框架中,合作智能体可以始终如一地规划出更理想的未来路径,即减少碳排放和改善经济。然而,当在智能体之间引入竞争时,例如使用相反的奖励函数,则很少能达到理想的气候未来。模拟竞争对于提高这些模拟的真实性至关重要,因此我们通过可视化哪些状态会导致更不确定的行为来进行策略解释,从而了解算法失败的原因。最后,我们强调了当前的局限性和未来工作方向,以确保未来技术能够用于政策制定。