LLM2D
小规模LLM中宪法AI效果如何?关于DeepSeek-R1及其同类的探究
How Effective Is Constitutional AI in Small LLMs? A Study on DeepSeek-R1 and Its Peers
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2503.17365v2

摘要

arXiv:2503.17365v2 安全公告类型: replace-cross 摘要: 近期事件突显了大型语言模型(LLMs)的安全风险,促使人们研究如宪法AI(CAI)之类的对齐方法。本文探讨了CAI在其自批判机制在小规模、未受限的7-9B参数模型上的应用,包括DeepSeek-R1-8B、Gemma-2-9B、Llama 3.1-8B和Qwen2.5-7B。我们发现,虽然基于Llama的模型通过自批判显著减少了危害,但在消除偏差后,其他架构在危害检测方面的改进较少。这些结果表明,CAI的有效性可能因模型架构和推理能力的不同而异。