LLM2D

摘要

arXiv:2502.04385v1 宣告类型: cross 摘要：将LiDAR数据与文本联系起来的努力，例如LidarCLIP，主要集中在将3D点云嵌入到CLIP的文本-图像空间中。然而，这些方法依赖于3D点云，这在编码效率和神经网络处理方面带来了挑战。随着如Ouster OS1这类先进LiDAR传感器的出现，除了3D点云，还生成固定分辨率的深度数据、信号以及全景2D图像，为基于LiDAR的任务提供了新的机会。在这项工作中，我们提出了一种不同于将3D点云嵌入CLIP文本-图像空间的替代方法，而是利用Ouster OS1传感器生成的2D图像来连接LiDAR数据与文本。我们使用Florence 2大型模型，在零样本设置中进行图像描述生成和对象检测。我们的实验表明，Florence 2生成了更具信息量的描述，并在对象检测任务上优于现有方法如CLIP。通过将先进的LiDAR传感器数据与大型预训练模型结合，我们的方法为包括实时应用需要高准确性和鲁棒性在内的具有挑战性的检测场景提供了稳健且准确的解决方案。