LLM2D

摘要

arXiv:2504.15304v1 宣告类型: 新摘要: 机器学习 ML 代理在过去广泛的任务和环境中被越来越多地用于决策。这些 ML 代理通常被设计为在做出选择时平衡多个目标。了解它们的决策过程与人类推理是如何一致或不一致是至关重要的。人类代理经常遇到难以抉择的情况，即选项之间不可通约；既没有偏好的选项，但代理对于这些选项也不是无所谓的。在这种情况下，人类代理可以通过深思熟虑来识别并解决难以抉择的问题。相比之下，由于多目标优化或 MOO 方法的基本局限性，当前的 ML 代理无法识别难以抉择的情况，更不用说解决它们了。标量优化和帕累托优化，这两种主要的多目标优化方法，都无法捕捉到不可通约性。这一局限性产生了三种不同的对齐问题：从人类角度来看，ML 决策行为的陌生性；基于偏好对难以抉择的问题进行对齐策略的不可靠性；以及追逐多重目标的对齐策略的阻碍。我评估了两种潜在的技术解决方案，并推荐一个最有可能实现 ML 代理识别难以抉择的问题并减轻对齐问题的集合解决方案。然而，没有任何已知的技术可以让 ML 代理通过深思熟虑来解决难以抉择的问题，因为它们无法自主更改目标。这突显了人类代理的独特性，并敦促机器学习研究人员重新概念化机器自主性，并开发出能够更好地解决这一基本缺口的框架和方法。