LLM2D
银河漫步者:几何感知的大规模预训练模型在银河尺度上的理解
Galaxy Walker: Geometry-aware VLMs For Galaxy-scale Understanding
作者: Tianyu Chen, Xingcheng Fu, Yisen Gao, Haodong Qian, Yuecen Wei, Kun Yan, Haoyi Zhou, Jianxin Li
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18578v1

摘要

arXiv:2503.18578v1 交叉公告类型:cross 摘要:现代视觉-语言模型(VLMs)最初在向量空间中发展了补丁嵌入和卷积骨干,尤其是欧几里得空间。当将VLMs扩展到星系规模以理解天文现象时,对行星轨道的球形空间集成和对黑洞的双曲空间集成提出了两大挑战。a) 当前的预训练模型仅局限于欧几里得空间,而不是一个全面的几何嵌入。b) 主导的架构缺乏适合各向异性物理几何的合适骨干网络。本文中,我们引入了Galaxy-Walker,一种具有几何意识的VLM,用于宇宙级别的视觉理解任务。我们提出了几何提示,通过在多尺度物理图上跨不同类型的空间进行随机漫步生成几何标记,以及几何适配器,以专家系统的混合方式压缩和重塑空间各向异性。广泛的经验表明了我们方法的有效性,Galaxy-Walker在星系属性估计($R^2$分数高达$0.91$)和形态分类任务(在具有挑战性的特征上+$0.17$的F1提高)中均实现了最先进的性能,显著优于专门领域模型和通用VLM。