LLM2D

摘要

arXiv:2502.03608v1 类型: cross 摘要: 近年来，人们投入了大量精力将现代神经网络架构适应于表格数据。然而，尽管这些模型具有更多的参数以及更长的训练和推理时间，但它们并不总能持续表现出色，超越传统的多层感知机（MLP）神经网络。此外，基于MLP的集成方法最近展示了与先进深度学习方法相比优越的性能和效率。因此，与其专注于构建更深更复杂的深度学习模型，我们建议探究是否可以使用更高效的架构替代MLP神经网络而不牺牲性能。在本文中，我们首先介绍了GG MoE，这是一种带有Gumbel-Softmax门控函数的专家混合模型。然后，我们证明了带有嵌入层的GG MoE在38个数据集上实现了与标准MoE和MLP模型相比最高的性能。最后，我们展示了MoE和GG MoE都比MLP使用了显著较少的参数，使它们成为扩展和集成方法的有前途的替代方案。