LLM2D

摘要

开发安全的代理人工智能系统得益于符合人类价值观的自动化实证测试，而这一子领域目前尚处于发展初期。为了对此做出贡献，本研究重点介绍了现代强化学习文献中安全方面被忽视的生物学和经济学主题，即稳态、平衡多个目标、有限目标、收益递减、可持续性和多智能体资源共享。我们针对上述主题实施了八个主要基准环境，以说明当前关于人工智能安全的主流讨论中可能存在的缺陷。