LLM2D

摘要

arXiv:2504.04918v1 宣告类型: 新摘要: 随着语言模型变得越来越大，获得高质量训练数据的成本显著增加。收集人类反馈既昂贵又耗时，手动标签可能不够准确，导致有用性和危害性之间的不平衡。Anthropic于2022年12月引入的宪法AI通过使用AI为另一个AI提供反馈，大大减少了对人类标注的需求。然而，最初的实现是为一个大约有520亿参数的模型设计的，关于较小模型（如3-8B的LLaMA）上宪法AI的表现信息有限。在本文中，我们使用较小的3-8B的LLaMA模型复制了宪法AI的工作流程。结果显示，宪法AI有效地增加了模型的危害性减少，在MT-Bench 中，攻击成功率降低了40.8%。然而，与原始研究类似，增加危害性的减少伴随着有用性的降低。有用的度量指标（Turn 1 和 Turn 2 分数的平均值）与基线相比下降了9.8%。此外，我们在最终的DPO-CAI 模型中观察到了模型崩溃的明显迹象，表明较小的模型可能由于输出质量不足，在自我改进方面遇到困难，使得有效的微调更加具有挑战性。我们的研究建议，与推理和数学能力一样，自我改进是一种 emergent 属性。