LLM2D

摘要

arXiv:2405.00557v4 宣告类型: replace-cross 摘要：随着大规模语言模型（LLMs）的能力不断扩展，使这些模型与人类价值观保持一致仍然是一个巨大的挑战。最近的研究表明，推理能力对模型的安全性有重大贡献，而集成混合专家（MoE）架构可以进一步增强一致性的效果。在此项工作中，我们提出了一种Mixture of insighTful Experts（MoTE）的新颖框架，该框架以协同方式结合了推理链和专家混合，以提高自我一致性的效果。从数据角度来看，MoTE采用了一个结构化的推理链，其中包括四个关键阶段：问题分析、答案引导、安全答案和安全性检查。这种方法通过多步推理增强安全性，并且即使对于较小和不太强大的LLM模型（例如，7B模型）也证明是有效的。从架构角度来看，MoTE采用了一个多LoRA框架，其中每个专家负责特定的推理步骤。此设计消除了平衡损失的需要，确保了稳定的训练，并支持自适应的推理长度。实验结果表明，MoTE显著提高了模型的安全性、逃逸攻击抵御能力和过度拒绝能力，其性能与OpenAI的最先进的o1模型相当。