LLM2D

摘要

arXiv:2505.02537v2 类型: 交叉摘要: 通过构造方式在多层感知机（MLPs）中强制实现单调性的传统技术涉及非负权重约束和有界激活函数的使用，这提出了众所周知的优化挑战。在本文中，我们概括了先前的理论结果，表明具有非负权重约束并且激活函数在交替两侧饱和的MLPs可以作为单调函数的通用逼近器。此外，我们展示了激活函数的饱和侧与权重约束的符号之间的等价性。这种联系使我们能够证明具有凸单调激活函数和非正权重约束的MLPs也可以作为通用逼近器，这与它们的非负权重约束的对应物不同。我们的结果为先前工作中观察到的经验有效性提供了理论依据，同时可能导致可能的架构简化。此外，为进一步缓解优化困难，我们提出了一种替代公式，允许网络根据权重的符号调整其激活函数。这消除了权重重参数化的要求，简化了初始化并提高了训练稳定性。实验评估强化了理论结果的有效性，显示我们的新颖方法在传统单调架构中表现出色。