摘要
大型语言模型 (LLMs) 、系统评估和进化算法的结合,在组合优化和科学发现方面取得了突破。我们提出将这种强大的组合扩展到动态系统的控制,生成能够实现复杂行为的可解释控制策略。通过我们的新方法,我们将控制策略表示为标准语言(如 Python)中的程序。我们在模拟中评估候选控制器,并使用预训练的 LLM 对其进行进化。与传统的基于学习的控制技术不同,后者依赖于黑盒神经网络来编码控制策略,我们的方法增强了透明度和可解释性。我们仍然利用大型 AI 模型的力量,但在策略设计阶段利用它,确保所有系统组件在运行时保持可解释和易于验证。此外,使用标准编程语言使人类可以根据自己的专业知识和直觉轻松地微调或调整控制器。我们通过将该方法应用于摆杆摆动和球在杯子任务的可解释控制策略的合成来说明我们的方法。我们在 https://github.com/muellerlab/synthesizing_interpretable_control_policies.git 上提供了代码。