LLM2D

摘要

我们提出了一种强化学习架构的扩展，该架构使强化学习代理能够基于规范理由进行道德决策。该方法的核心是一个基于理由的盾牌生成器，它产生一个道德盾牌，将代理绑定到符合公认规范理由的行为上，从而使我们的整体架构限制代理仅执行（内部）道德上合理的行为。此外，我们描述了一种算法，该算法允许通过道德法官的基于案例的反馈来迭代改进基于理由的盾牌生成器。