摘要
arXiv:2502.02562v1 交叉类型通知:
摘要:我们引入了STRING:可分离的平移不变位置编码。STRING通过一个统一的理论框架,扩展了最近提出并在大规模语言模型中广泛使用的旋转位置编码算法。重要的是,STRING仍然提供了精确的平移不变性,包括任意维度的 token 坐标,同时保持了低的计算开销。这些特性在机器人学中尤为重要,因为高效的3D token表示是关键。我们将STRING整合到使用RGB(-D)输入(颜色加上可选的深度)的视觉变压器中,展示了显著的性能提升,例如在开放词汇对象检测和机器人控制器上。我们通过严谨的数学分析补充了我们的实验,证明了我们方法的通用性。