LLM2D

摘要

arXiv:2502.04675v1 类别: 新闻摘要: 随着AI在复杂任务中的能力越来越超过人类的专业水平，当前的对齐技术，包括指令 fine-tuning (SFT) 和基于人类反馈的强化学习 (RLHF)，在确保可靠监督方面面临着根本性的挑战。这些方法依赖于直接的人类评估，在AI输出超过人类认知阈值时变得不可行。为应对这一挑战，我们探讨了两种假设：(1) 对评论进行评论可能比直接评论更容易，将广泛接受的验证比生成更容易的观察扩展到评论领域，因为评论本身就是一种专门形式的生成；(2) 这种难度关系是递归保持的，这表明在直接评估不可行时，执行高阶评论（例如，评论的评论的评论）为更可行的监督途径。为了验证这些假设，我们在多个任务上进行了人类-人类、人类-AI和AI-AI实验。我们的结果展示了支持这些假设的令人鼓舞的证据，并表明递归自我评论是一种具有 scalability（可扩展性）潜力的监督方向。