摘要
arXiv:2504.15304v1 宣告类型: 新
摘要: 机器学习 ML 代理在过去广泛的任务和环境中被越来越多地用于决策。这些 ML 代理通常被设计为在做出选择时平衡多个目标。了解它们的决策过程与人类推理是如何一致或不一致是至关重要的。人类代理经常遇到难以抉择的情况,即选项之间不可通约;既没有偏好的选项,但代理对于这些选项也不是无所谓的。在这种情况下,人类代理可以通过深思熟虑来识别并解决难以抉择的问题。相比之下,由于多目标优化或 MOO 方法的基本局限性,当前的 ML 代理无法识别难以抉择的情况,更不用说解决它们了。标量优化和帕累托优化,这两种主要的多目标优化方法,都无法捕捉到不可通约性。这一局限性产生了三种不同的对齐问题:从人类角度来看,ML 决策行为的陌生性;基于偏好对难以抉择的问题进行对齐策略的不可靠性;以及追逐多重目标的对齐策略的阻碍。我评估了两种潜在的技术解决方案,并推荐一个最有可能实现 ML 代理识别难以抉择的问题并减轻对齐问题的集合解决方案。然而,没有任何已知的技术可以让 ML 代理通过深思熟虑来解决难以抉择的问题,因为它们无法自主更改目标。这突显了人类代理的独特性,并敦促机器学习研究人员重新概念化机器自主性,并开发出能够更好地解决这一基本缺口的框架和方法。