LLM2D

摘要

视觉语言模型 (VLMs) 的最新进展使其成为自动驾驶视觉问答 (VQA) 的关键技术，实现了自然的人车交互。然而，现有方法在动态驾驶环境中往往难以应对，因为它们通常关注静态图像或视频，并依赖于下采样来降低计算成本。这导致关键细节丢失，难以有效整合空间和时间信息，从而影响精细感知和时间一致性，而这些对于有效的决策至关重要。为了解决这些挑战，我们引入了 LaVida Drive，这是一种用于自动驾驶的新型高效 VQA 框架。LaVida Drive 在保持高分辨率输入以进行详细视觉感知的同时，无缝地整合了时间数据。它通过保留高分辨率数据以获取复杂细节并使用低分辨率输入进行时间分析来关注运动相关特征，从而优化空间处理并提高计算效率。LaVida Drive 的核心由两个模块组成：*查询感知令牌选择* 模块和 *时空令牌恢复和增强* 模块。前者根据与输入查询的语义对齐动态选择最相关的视觉令牌，减少来自高分辨率空间输入的令牌数量。后者确保空间和时间信息之间平滑且一致的交互，保持跨帧的上下文连续性。在各种自动驾驶问答基准上的大量实验表明，LaVida Drive 显著减少了视觉令牌，提高了效率，并改善了整体性能。