摘要
arXiv:2502.03608v1 类型: cross
摘要: 近年来,人们投入了大量精力将现代神经网络架构适应于表格数据。然而,尽管这些模型具有更多的参数以及更长的训练和推理时间,但它们并不总能持续表现出色,超越传统的多层感知机(MLP)神经网络。此外,基于MLP的集成方法最近展示了与先进深度学习方法相比优越的性能和效率。因此,与其专注于构建更深更复杂的深度学习模型,我们建议探究是否可以使用更高效的架构替代MLP神经网络而不牺牲性能。在本文中,我们首先介绍了GG MoE,这是一种带有Gumbel-Softmax门控函数的专家混合模型。然后,我们证明了带有嵌入层的GG MoE在38个数据集上实现了与标准MoE和MLP模型相比最高的性能。最后,我们展示了MoE和GG MoE都比MLP使用了显著较少的参数,使它们成为扩展和集成方法的有前途的替代方案。