摘要
arXiv:2504.03739v1 交叉类型公告
摘要:生成模型,例如GPT和BERT,在文本生成和总结等任务中显著提高了性能。然而,在较小规模的架构中,“模型生成非事实或误导性内容的现象”尤其问题重重,限制了它们的实际应用。在本文中,我们提出了一种统一的虚拟混合专家(MoE)融合策略,在不增加参数数量的情况下,增强了单个Qwen 1.5 0.5B模型的推理性能并减轻了幻觉。我们的方法利用多个领域特定的专家提示(专家的数量可调整),从不同角度引导模型。我们基于均值和标准差采用统计离群值截断策略来过滤异常高的概率预测,并在嵌入空间中注入噪声以促进输出多样性。为了明确评估每个模块的贡献,我们采用固定投票机制而非动态门控网络,从而避免了额外的混杂因素。从统计和集成学习的角度提供了详细的理论推导,以展示我们的方法如何降低输出方差并抑制幻觉。通过对话生成任务的广泛消融实验表明,我们的方法显著提高了小模型的推理准确性和鲁棒性。此外,我们讨论了评估虚拟专家正交性的方法,并概述了使用门控网络进行动态专家权重分配的未来工作潜力。