LLM2D
FindTheFlaws: 注释错误以检测有缺陷的推理与可扩展监督研究
FindTheFlaws: Annotated Errors for Detecting Flawed Reasoning and Scalable Oversight Research
作者: Gabriel Recchia, Chatrik Singh Mangat, Issac Li, Gayatri Krishnakumar
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.22989v1

摘要

arXiv:2503.22989v1 宣布类型: 新 摘要: 随着AI模型处理越来越复杂的问题,确保可靠的人类监督变得越来越具有挑战性,因为验证解决方案的难度也在增加。这些应对AI监督规模化的策略包括辩论,其中两个代理通过结构化的对话帮助裁判评估声明;批判,其中模型识别提出的解决方案中的潜在缺陷;以及证明-验证游戏,其中有能力的“证明者”模型生成必须由较不能力的“验证者”验证的解决方案。对于这些方法和其他类似方法在应对难题方面的可扩展性评估可以从包括(1)长期专家验证的正确解决方案和(2)带有注释突出显示具体错误的长期有缺陷的解决方案的数据集中获益,但现有这样的数据集很少。 为解决这一缺口,我们提出了FindTheFlaws,这是一个涵盖医学、数学、科学、编程和逻辑语言Lojban五个多样化数据集的集合。每个数据集包含问题和带有专家注释验证其正确性或识别推理中具体错误的长文本解决方案。我们评估了前沿模型的批判能力,并观察到各种性能范围,这些性能可以用于可扩展的监督实验:在特定数据集上表现较差的模型可以作为更能力强的模型的裁判/验证者。此外,对于某些任务/数据集组合,专家基准甚至超过了顶级模型的性能,使得它们在可扩展的监督实验中更具效益。