摘要
arXiv:2502.14788v1 Announce Type: cross
摘要:在本文中,我们介绍了一种新的条件激活神经网络架构,该架构结合了多层Mixture of Experts(MoEs)的分层构建和一个逐步优化专家激活配置的采样机制。该方法使网络架构的动态展开成为可能,从而促进针对特定路径的高效训练。实验结果表明,该方法在与传统基线相当的准确率同时显著减少了推理所需的参数计数。值得注意的是,这种参数减少与输入模式的复杂性相关,这一特性自然地从网络的操作动态中产生,而无需显式使用辅助惩罚函数。