摘要
强化学习 (RL) 广泛应用于自主系统 (AS),因为它能够在运行时学习,无需环境模型或预定义动作。然而,大多数 RL 在 AS 中的应用,例如基于 Q 学习的应用,只能优化一个目标,这使得在多目标系统中必须将多个目标组合成一个具有预定义权重的目标函数。许多多目标强化学习 (MORL) 技术已经存在,但它们主要应用于 RL 基准测试,而不是现实世界的 AS 系统。在这项工作中,我们使用一种名为深度 W 学习 (DWN) 的 MORL 技术,并将其应用于新兴 Web 服务器范例(一个自适应服务器),以找到运行时性能优化的最佳配置。我们将 DWN 与两种单目标优化实现进行比较:{\epsilon}-贪婪算法和深度 Q 网络。我们初步的评估表明,DWN 可以同时优化多个目标,并与 DQN 和 {\epsilon}-贪婪方法获得类似的结果,在某些指标上表现更好,并且避免了将多个目标组合成单一效用函数带来的问题。