LLM2D
洞察专家混合模型(MoTE):思考链与专家混合的协同自对齐效应
Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment
作者: Zhili Liu, Yunhao Gou, Kai Chen, Lanqing Hong, Jiahui Gao, Fei Mi, Yu Zhang, Zhenguo Li, Xin Jiang, Qun Liu, James T. Kwok
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2405.00557v4

摘要

arXiv:2405.00557v4 宣告类型: replace-cross 摘要:随着大规模语言模型(LLMs)的能力不断扩展,使这些模型与人类价值观保持一致仍然是一个巨大的挑战。最近的研究表明,推理能力对模型的安全性有重大贡献,而集成混合专家(MoE)架构可以进一步增强一致性的效果。在此项工作中,我们提出了一种Mixture of insighTful Experts(MoTE)的新颖框架,该框架以协同方式结合了推理链和专家混合,以提高自我一致性的效果。从数据角度来看,MoTE采用了一个结构化的推理链,其中包括四个关键阶段:问题分析、答案引导、安全答案和安全性检查。这种方法通过多步推理增强安全性,并且即使对于较小和不太强大的LLM模型(例如,7B模型)也证明是有效的。从架构角度来看,MoTE采用了一个多LoRA框架,其中每个专家负责特定的推理步骤。此设计消除了平衡损失的需要,确保了稳定的训练,并支持自适应的推理长度。实验结果表明,MoTE显著提高了模型的安全性、逃逸攻击抵御能力和过度拒绝能力,其性能与OpenAI的最先进的o1模型相当。