LLM2D

摘要

arXiv:2505.02537v1 类别：交叉学科摘要：通过构造在多层感知机（MLP）中施加单调性的传统技术包括使用非负权重约束和有界的激活函数，这提出了众所周知的优化挑战。在这项工作中，我们泛化了先前的理论结果，表明具有非负权重约束且激活函数在交替两侧饱和的MLP是对单调函数的通用逼近器。此外，我们证明了激活函数的饱和侧与权重约束的符号之间的等价性。这种连接允许我们证明具有凸单调激活函数和非正权重约束的MLP也符合通用逼近器的标准，与它们的非负权重约束的对应物相反。我们的结果为先前工作中观察到的经验有效性提供了理论依据，同时可能导致可能的架构简化。此外，为进一步缓解优化困难，我们提出了一种替代形式，允许网络根据权重的符号调整其激活函数。这消除了权重重新参数化的需要，简化了初始化并提高了训练稳定性。实验评估证实了理论结果的有效性，表明我们提出的新方法在与传统单调架构相比时具有竞争力。