摘要
arXiv:2504.08896v1 交叉公告类型
摘要:在基础模型和大型语言模型(LLMs)的时代,欧几里得空间一直是机器学习架构的事实几何背景。然而,最近的研究表明,这种选择带来了根本性的限制。在大规模上,真实世界的数据往往表现出内在的非欧几里得结构,例如多向关系、层次结构、对称性和非各向同性缩放,这些结构存在于语言、视觉和自然科学等多个领域。在欧几里得空间的限制下有效捕捉这些结构是具有挑战性的。本文立场认为,超越欧几里得几何不仅是可选的增强,而是为了新一代基础模型遵循扩展律的必要性。通过采用这些几何结构,基础模型可以更有效地利用上述结构。面向任务的适应性可以通过动态重新配置嵌入以匹配下游应用的几何结构来进一步提高效率和表示能力。我们的立场由一系列对流行基础模型的理论和实验研究支持。最后,我们概述了一个将非欧几里得几何整合到基础模型中的路线图,包括使用微调、从头训练和混合方法构建几何基础模型的策略。