LLM2D
条件激活神经网络的射线 tracing
Ray-Tracing for Conditionally Activated Neural Networks
作者: Claudio Gallicchio, Giuseppe Nuti
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14788v1

摘要

arXiv:2502.14788v1 Announce Type: cross 摘要:在本文中,我们介绍了一种新的条件激活神经网络架构,该架构结合了多层Mixture of Experts(MoEs)的分层构建和一个逐步优化专家激活配置的采样机制。该方法使网络架构的动态展开成为可能,从而促进针对特定路径的高效训练。实验结果表明,该方法在与传统基线相当的准确率同时显著减少了推理所需的参数计数。值得注意的是,这种参数减少与输入模式的复杂性相关,这一特性自然地从网络的操作动态中产生,而无需显式使用辅助惩罚函数。