LLM2D

摘要

arXiv:2503.17365v2 安全公告类型: replace-cross 摘要: 近期事件突显了大型语言模型（LLMs）的安全风险，促使人们研究如宪法AI（CAI）之类的对齐方法。本文探讨了CAI在其自批判机制在小规模、未受限的7-9B参数模型上的应用，包括DeepSeek-R1-8B、Gemma-2-9B、Llama 3.1-8B和Qwen2.5-7B。我们发现，虽然基于Llama的模型通过自批判显著减少了危害，但在消除偏差后，其他架构在危害检测方面的改进较少。这些结果表明，CAI的有效性可能因模型架构和推理能力的不同而异。