LLM2D
学习RoPEs:借助STRING进行更优的2D和3D位置编码
Learning the RoPEs: Better 2D and 3D Position Encodings with STRING
作者: Connor Schenck, Isaac Reid, Mithun George Jacob, Alex Bewley, Joshua Ainslie, David Rendleman, Deepali Jain, Mohit Sharma, Avinava Dubey, Ayzaan Wahid, Sumeet Singh, Rene Wagner, Tianli Ding, Chuyuan Fu, Arunkumar Byravan, Jake Varley, Alexey Gritsenko, Matthias Minderer, Dmitry Kalashnikov, Jonathan Tompson, Vikas Sindhwani, Krzysztof Choromanski
发布日期: 2/5/2025
arXiv ID: 2502.02562

摘要

arXiv:2502.02562v1 交叉类型通知: 摘要:我们引入了STRING:可分离的平移不变位置编码。STRING通过一个统一的理论框架,扩展了最近提出并在大规模语言模型中广泛使用的旋转位置编码算法。重要的是,STRING仍然提供了精确的平移不变性,包括任意维度的 token 坐标,同时保持了低的计算开销。这些特性在机器人学中尤为重要,因为高效的3D token表示是关键。我们将STRING整合到使用RGB(-D)输入(颜色加上可选的深度)的视觉变压器中,展示了显著的性能提升,例如在开放词汇对象检测和机器人控制器上。我们通过严谨的数学分析补充了我们的实验,证明了我们方法的通用性。