摘要
arXiv:2503.17365v2 安全公告类型: replace-cross
摘要: 近期事件突显了大型语言模型(LLMs)的安全风险,促使人们研究如宪法AI(CAI)之类的对齐方法。本文探讨了CAI在其自批判机制在小规模、未受限的7-9B参数模型上的应用,包括DeepSeek-R1-8B、Gemma-2-9B、Llama 3.1-8B和Qwen2.5-7B。我们发现,虽然基于Llama的模型通过自批判显著减少了危害,但在消除偏差后,其他架构在危害检测方面的改进较少。这些结果表明,CAI的有效性可能因模型架构和推理能力的不同而异。