摘要
arXiv:2504.04918v1 宣告类型: 新
摘要: 随着语言模型变得越来越大,获得高质量训练数据的成本显著增加。收集人类反馈既昂贵又耗时,手动标签可能不够准确,导致有用性和危害性之间的不平衡。Anthropic于2022年12月引入的宪法AI通过使用AI为另一个AI提供反馈,大大减少了对人类标注的需求。然而,最初的实现是为一个大约有520亿参数的模型设计的,关于较小模型(如3-8B的LLaMA)上宪法AI的表现信息有限。在本文中,我们使用较小的3-8B的LLaMA模型复制了宪法AI的工作流程。结果显示,宪法AI有效地增加了模型的危害性减少,在MT-Bench 中,攻击成功率降低了40.8%。然而,与原始研究类似,增加危害性的减少伴随着有用性的降低。有用的度量指标(Turn 1 和 Turn 2 分数的平均值)与基线相比下降了9.8%。此外,我们在最终的DPO-CAI 模型中观察到了模型崩溃的明显迹象,表明较小的模型可能由于输出质量不足,在自我改进方面遇到困难,使得有效的微调更加具有挑战性。我们的研究建议,与推理和数学能力一样,自我改进是一种 emergent 属性。