LLM2D

摘要

arXiv:2409.13496v1 公告类型: 交叉摘要: 自动驾驶车辆和机器人由于RGB摄像机长时间曝光导致的低光照和运动模糊，在夜间往往难以实现可靠的视觉感知。现有方法通过依次连接现成的预训练低光照增强和去模糊模型来应对这一挑战。然而，这些方法通常会在过曝区域产生明显的伪影（例如，色彩失真），或者使得难以学习暗区域的动态线索。本文中，我们有趣地发现视觉-语言模型，例如对比语言-图像预训练（CLIP），能够全面感知夜间图像的多样退化程度。基于此，我们提出了一种新颖的基于Transformer的联合学习框架，命名为DAP-LED，该框架能够同时实现低光照增强和去模糊，从而有利于下游任务，如深度估计、分割和暗光下的检测。关键在于利用CLIP自适应地从夜间图像中学习退化程度。这巧妙地促进了丰富的语义信息和视觉表示的学习，以优化联合任务。为此，我们首先引入了一个CLIP引导的跨融合模块，从图像嵌入中获取多尺度块级退化热图。然后，通过设计的CLIP增强型Transformer块融合这些热图，以保留有用的退化信息，实现有效的模型优化。实验结果表明，与现有方法相比，我们的DAP-LED在暗光条件下达到了最先进的性能。同时，增强结果在三个下游任务中被证明是有效的。有关演示和更多结果，请访问项目页面：\url{https://vlislab22.github.io/dap-led/}。