摘要
arXiv:2502.04675v1 类别: 新闻
摘要: 随着AI在复杂任务中的能力越来越超过人类的专业水平,当前的对齐技术,包括指令 fine-tuning (SFT) 和基于人类反馈的强化学习 (RLHF),在确保可靠监督方面面临着根本性的挑战。这些方法依赖于直接的人类评估,在AI输出超过人类认知阈值时变得不可行。为应对这一挑战,我们探讨了两种假设:(1) 对评论进行评论可能比直接评论更容易,将广泛接受的验证比生成更容易的观察扩展到评论领域,因为评论本身就是一种专门形式的生成;(2) 这种难度关系是递归保持的,这表明在直接评估不可行时,执行高阶评论(例如,评论的评论的评论)为更可行的监督途径。为了验证这些假设,我们在多个任务上进行了人类-人类、人类-AI和AI-AI实验。我们的结果展示了支持这些假设的令人鼓舞的证据,并表明递归自我评论是一种具有 scalability(可扩展性)潜力的监督方向。