LLM2D

摘要

arXiv:2504.03731v1 公告类型: 新摘要: 随着AI代理超越人类能力，可扩展的监督——有效向超人类AI模型提供人类反馈的问题——变得越来越关键，以确保齐一性。虽然已经提出了许多可扩展的监督协议，但缺乏一个系统性的实证框架来评估和比较它们。虽然最近的一些工作试图实证研究可扩展的监督协议——特别是辩论方法——但我们认为它们进行的实验对于其他协议来说并不具有普遍适用性。我们引入了可扩展的监督基准，这是一个基于我们代理得分差（ASD）指标的有原则的框架，该指标衡量一种机制在促进说实话而非欺诈方面的有效性。我们提供了一个Python包，以促进在我们的基准上快速且竞争性的评估可扩展的监督协议，并进行了一个示范性实验，基准测试了辩论方法。