摘要
arXiv:2502.04313v1 宣告类型:跨领域
摘要:随着语言模型(LM)能力的提升,大规模评估和监督它们正变得越来越难以由人类完成。希望其他语言模型可以自动化这两个任务,我们称之为“AI监督”。我们通过提出一种基于模型错误重叠的概率度量来研究模型相似性如何影响AI监督的两个方面。使用这种度量,我们首先表明,作为法官的LLM评分倾向于青睐与法官相似的模型,从而扩展了最近的自我偏爱结果。然后,我们研究了基于LM注释的训练,发现弱监管者和强学生模型之间的互补知识在“弱到强泛化”中的作用至关重要。随着模型能力的增强,发现其错误变得更加困难,我们可能会更多地依赖于AI监督。然而,我们观察到一个令人担忧的趋势——随着能力的增强,模型错误变得越来越相似,这指出了相关失败带来的风险。我们的工作强调了在新兴的AI监督范式中报告和纠正模型相似性的的重要性。