LLM2D
STREAM:一种用于稀疏几何数据的通用状态空间模型
STREAM: A Universal State-Space Model for Sparse Geometric Data
作者: Mark Sch\"one, Yash Bhisikar, Karan Bania, Khaleelulla Khan Nazeer, Christian Mayr, Anand Subramoney, David Kappel
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.12603v2

摘要

处理稀疏和非结构化几何数据(例如点云或基于事件的视觉)是机器视觉领域的一个紧迫挑战。最近,诸如Transformer和状态空间模型之类的序列模型进入了几何数据领域。这些方法需要专门的预处理来创建点集的序列视图。此外,先前涉及序列模型的工作使用统一或学习的步长迭代几何数据,隐式地依赖于模型来推断底层几何结构。在这项工作中,我们建议将几何结构显式地编码到状态空间模型的参数化中。状态空间模型基于由一维变量(例如时间或空间坐标)控制的线性动力学。我们利用这个动态变量将坐标的相对差异注入到状态空间模型的步长中。由此产生的几何运算以O(N)步计算N个点所有对之间的交互。我们的模型部署了具有修改后的CUDA内核的Mamba选择性状态空间模型,以有效地将稀疏几何数据映射到现代硬件。由此产生的序列模型(我们称之为STREAM)在一系列基准测试中取得了具有竞争力的结果,从点云分类到基于事件的视觉和音频分类。STREAM通过在ModelNet40和ScanObjectNN点云分析数据集上从头开始训练时改进PointMamba基线,展示了对稀疏几何数据的强大归纳偏置。它还首次在DVS128手势数据集的所有11个类别上实现了100%的测试准确率。