LLM2D
可扩展监督协议基准
A Benchmark for Scalable Oversight Protocols
作者: Abhimanyu Pallavi Sudhir, Jackson Kaunismaa, Arjun Panickssery
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03731v1

摘要

arXiv:2504.03731v1 公告类型: 新 摘要: 随着AI代理超越人类能力,可扩展的监督——有效向超人类AI模型提供人类反馈的问题——变得越来越关键,以确保齐一性。虽然已经提出了许多可扩展的监督协议,但缺乏一个系统性的实证框架来评估和比较它们。虽然最近的一些工作试图实证研究可扩展的监督协议——特别是辩论方法——但我们认为它们进行的实验对于其他协议来说并不具有普遍适用性。我们引入了可扩展的监督基准,这是一个基于我们代理得分差(ASD)指标的有原则的框架,该指标衡量一种机制在促进说实话而非欺诈方面的有效性。我们提供了一个Python包,以促进在我们的基准上快速且竞争性的评估可扩展的监督协议,并进行了一个示范性实验,基准测试了辩论方法。