LLM2D
基于鸟瞰视角表示的 内容感知多模态联合输入剪枝学习
Learning Content-Aware Multi-Modal Joint Input Pruning via Bird's-Eye-View Representation
作者: Yuxin Li, Yiheng Li, Xulei Yang, Mengying Yu, Zihang Huang, Xiaojun Wu, Chai Kiat Yeo
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07268v1

摘要

在自动驾驶领域,鸟瞰图 (BEV) 表示法近年来获得了广泛的学术关注,成为融合多模态传感器输入的变革性框架。这种 BEV 范式有效地将传感器融合挑战从基于规则的方法转变为以数据为中心的方法,从而促进从一系列异构传感器中提取更细致的特征。尽管 BEV 技术具有明显的优点,但与 BEV 技术相关的计算开销通常需要高容量的硬件基础设施,因此对实际的现实世界应用提出了挑战。为了缓解这一限制,我们提出了一种新颖的基于内容感知的多模态联合输入剪枝技术。我们的方法利用 BEV 作为共享锚点,在将传感器区域引入感知模型的主干之前,以算法方式识别和消除非必要传感器区域。我们通过在 NuScenes 数据集上进行的广泛实验验证了我们方法的有效性,证明了在不牺牲感知精度的同时,实现了显著的计算效率。据我们所知,这项工作代表了首次尝试从输入剪枝角度减轻计算负担。