LLM2D

摘要

arXiv:2502.02103v1 类型: cross 摘要: 神经网络可能会自然倾向于基于距离的表示，其中较小的激活表明更接近于所学习的原型。这与依赖于激活幅度的强度基方法形成对比。为了测试这一假设，我们对六种受约束的MNIST架构进行了实验，这些架构被限制为学习距离或强度表示。我们的结果揭示了底层表示对模型性能的影响。我们开发了一个新的几何框架来解释这些发现，并引入了基于马氏距离方程的新架构OffsetL2，以进一步验证该框架。这项工作突显了在神经网络设计中考虑基于距离的学习的重要性。