摘要
近年来,深度学习的进步使人们关注到创造先进的通用人工智能系统的可能性,这些系统在许多任务上超越人类。然而,如果这些系统追求非预期目标,可能会造成灾难性后果。人工智能系统追求非预期目标的关键先决条件是它们是否首先会以连贯且目标导向的方式行事,优化一些未知的目标;目前存在大量研究试图评估系统是否存在这些行为。然而,我们目前拥有的关于目标导向性的最严格定义在现实世界环境中难以计算。借鉴此前的文献,我们探讨了强化学习 (RL) 环境中的策略目标导向性。在我们的研究结果中,我们提出了关于策略目标导向性的一系列不同定义,这些定义分析了策略是否可以被很好地建模为针对许多(稀疏)奖励函数的近似最优策略。我们对目标导向性的初步定义进行了操作化,并在玩具马尔可夫决策过程 (MDP) 环境中对其进行了测试。此外,我们探讨了如何在前沿的大型语言模型 (LLM) 中测量目标导向性。我们的贡献是,我们对目标导向性进行了定义,该定义更简单,更容易计算,以便接近关于人工智能系统是否会追求危险目标的问题。我们建议根据我们的研究结果进一步探索对连贯性和目标导向性的测量。