arXiv 论文列表

作者: Yuexi Du, John Onofrey, Nicha C. Dvornek

对比语言-图像预训练（CLIP）在医学图像分析中展现出巨大潜力，但需要大量数据和计算资源。由于这些限制，现有的医学影像CLIP应用主要集中在胸部X光等拥有丰富图像-报告数据的模态，而许多其他重要模态则被忽视。本文首次将完整的CLIP模型应用于乳腺X线摄影，这带来了巨大的挑战，因为该领域存在标记数据稀缺、高分辨率图像中感兴趣区域小以及数据不平衡等问题。我们首先针对乳腺X线摄影的多视图特性开发了一种专门的监督框架。此外，我们设计了一个对称局部对齐模块，以更好地关注高分辨率图像中的细节特征。最后，我们将参数高效微调方法应用于预先训练了医学知识的大型语言模型，以解决数据限制问题。我们的多视图和多尺度对齐（MaMA）方法在两个大型真实世界乳腺X线摄影数据集EMBED和RSNA-Mammo上，针对三种不同的任务，超过了最先进的基线，并且模型大小仅为最大基线的52%。

发布时间: 9/27/2024

查看原文

无需寻找犀牛，即可发现犀牛：利用南非犀牛栖息地多模态图像进行主动学习

作者: Lucia Gordon, Nikhil Behari, Samuel Collier, Elizabeth Bondi-Kelly, Jackson A. Killian, Catherine Ressijac, Peter Boucher, Andrew Davies, Milind Tambe

地球上许多迷人的大型动物正面临着人类活动的威胁，尤其是犀牛，由于非洲的偷猎危机，它们正面临着灭绝的风险。监测犀牛的活动对于它们的保护至关重要，但不幸的是，由于犀牛难以捉摸，监测工作一直很困难。因此，我们提出了一种新颖的方法，即绘制被称为“垃圾堆”的公共排泄地点地图，这些地图可以提供有关犀牛空间行为的信息，这对反偷猎、管理和重新引入工作至关重要。本文首次通过构建分类器来绘制犀牛垃圾堆的位置，这些分类器使用被动和主动学习环境中的遥感热成像、RGB 和 LiDAR 图像来检测垃圾堆。由于现有主动学习方法在我们的数据集中的极端类别不平衡情况下表现不佳，我们设计了 MultimodAL，这是一种主动学习系统，它采用排名技术和多模态来实现与被动学习模型相当的性能，标签数量减少了 94%。因此，当在类似规模的数据集上使用我们的方法时，可以节省超过 76 小时的标记时间。出乎意料的是，我们的垃圾堆地图显示，犀牛垃圾堆在景观中的分布并非随机的；相反，它们是聚集在一起的。因此，护林员应将目标锁定在垃圾堆密度高的区域，以加强反偷猎工作，符合联合国目标 15.7。

发布时间: 9/27/2024

查看原文

人工智能驱动的卫星组装、集成与测试增强现实技术

作者: Alvaro Patricio, Joao Valente, Atabak Dehban, Ines Cadilha, Daniel Reis, Rodrigo Ventura

人工智能（AI）与增强现实（AR）的融合将通过提高精度、最小化人为错误和提升洁净室环境下的运营效率来改变卫星组装、集成和测试（AIT）流程。本文介绍了欧洲航天局（ESA）的“卫星AIT中的AR人工智能”项目，该项目结合了实时计算机视觉和AR系统，为卫星组装过程中的技术人员提供辅助。该系统利用微软HoloLens 2作为AR界面，提供上下文感知的指令和实时反馈，解决AIT工作流程中物体识别和6D姿态估计的复杂问题。所有AI模型都展示了超过70%的准确率，其中检测模型的准确率超过95%，表明其具有很高的性能和可靠性。这项工作的主要贡献在于有效地利用合成数据训练AR应用中的AI模型，解决了在高度动态的卫星环境中获取真实世界数据集的重大挑战，并创建了用于自动标记的分割任何模型（SAMAL），该模型可以实现自动注释真实数据，速度比人工手动注释快20倍。研究结果表明，AI驱动的AR系统在自动化关键卫星组装任务方面具有有效性，为未来空间产业的创新奠定了基础。

发布时间: 9/27/2024

查看原文

高效裂缝分割网络：一种轻量级模型

作者: Abid Hasan Zim, Aquib Iqbal, Zaid Al-Huda, Asad Malik, Minoru Kuribayash

裂缝检测，特别是从路面图像中进行检测，在计算机视觉领域是一个巨大的挑战，因为存在着诸如强度不均匀、复杂拓扑结构、低对比度和噪声背景等固有复杂性。自动裂缝检测对于维护基础设施（包括建筑物、路面和桥梁）的结构完整性至关重要。现有的轻量级方法通常面临计算效率低、裂缝模式复杂和背景困难等挑战，导致检测不准确且不适用于现实世界应用。为了解决这些局限性，我们提出了 EfficientCrackNet，这是一种轻量级混合模型，它结合了卷积神经网络 (CNN) 和 Transformer，用于精确的裂缝分割。EfficientCrackNet 集成了深度可分离卷积 (DSC) 层和 MobileViT 模块，以捕获全局和局部特征。该模型采用边缘提取方法 (EEM)，无需预训练即可有效地检测裂缝边缘，并采用超轻量级子空间注意力模块 (ULSAM) 来增强特征提取。在 Crack500、DeepCrack 和 GAPs384 三个基准数据集上的大量实验表明，EfficientCrackNet 与现有的轻量级模型相比，取得了优越的性能，同时只需要 0.26M 个参数和 0.483 FLOPs (G)。所提出的模型在准确性和计算效率之间取得了最佳平衡，优于最先进的轻量级模型，并为现实世界的裂缝分割提供了一种稳健且适应性强的解决方案。

发布时间: 9/27/2024

查看原文

DiffSSC：基于去噪扩散概率模型的语义LiDAR扫描补全

作者: Helin Cao, Sven Behnke

感知系统在自动驾驶中起着至关重要的作用，它整合了多个传感器和相应的计算机视觉算法。3D激光雷达传感器被广泛用于捕捉车辆周围环境的稀疏点云。然而，由于这些点云的稀疏性和缺乏语义信息，此类系统难以感知场景中的遮挡区域和间隙。为了应对这些挑战，语义场景补全（SSC）通过结合原始激光雷达测量结果，共同预测场景中未观察到的几何形状和语义信息，旨在构建更完整的场景表示。基于扩散模型在图像生成和超分辨率任务中取得的良好成果，我们通过在点空间和语义空间分别实施噪声和去噪扩散过程，将其扩展到SSC。为了控制生成过程，我们采用语义激光雷达点云作为条件输入，并设计局部和全局正则化损失来稳定去噪过程。我们在自动驾驶数据集上评估了我们的方法，结果表明，我们的方法在SSC方面超越了现有技术水平。

发布时间: 9/27/2024

查看原文

GSON：基于群体的大型多模态模型社会导航框架

作者: Shangyi Luo, Ji Zhu, Peng Sun, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang

随着人类环境中服务机器人和自动驾驶汽车数量的增长，它们的要求已不再仅仅是导航到目的地。它们还必须考虑到动态的社会环境，并确保在共享空间中尊重和舒适地对待他人，这对感知和规划提出了重大挑战。本文提出了一种基于群体的社会导航框架 GSON，使移动机器人能够通过提升大型多模态模型 (LMM) 的视觉推理能力来感知和利用其周围环境的社会群体。在感知方面，我们应用视觉提示技术来零样本提取行人之间的社会关系，并将结果与稳健的行人检测和跟踪管道相结合，以缓解 LMM 推理速度慢的问题。在获得感知结果后，规划系统被设计为避免破坏当前的社会结构。我们采用基于社会结构的中级规划器作为全局路径规划和局部运动规划之间的桥梁，以保留全局上下文和反应式响应。所提出的方法在涉及复杂社会结构理解和推理的现实世界移动机器人导航任务中得到验证。实验结果表明，与几个基线方法相比，该系统在这些场景中的有效性。

发布时间: 9/27/2024

查看原文

SKT：将状态感知关键点轨迹与视觉语言模型相结合用于机器人服装操作

作者: Xin Li, Siyuan Huang, Qiaojun Yu, Zhengkai Jiang, Ce Hao, Yimeng Zhu, Hongsheng Li, Peng Gao, Cewu Lu

自动服装操作对辅助机器人来说是一个重大挑战，因为服装具有多样性和可变形性。传统的做法通常需要针对每种服装类型分别建立模型，这限制了可扩展性和适应性。相比之下，本文提出了一种使用视觉语言模型（VLMs）的统一方法，以提高各种服装类别中的关键点预测。通过解释视觉和语义信息，我们的模型使机器人能够使用单个模型管理不同的服装状态。我们使用先进的模拟技术创建了一个大型合成数据集，允许在没有大量真实世界数据的情况下进行可扩展训练。实验结果表明，基于 VLM 的方法显着提高了关键点检测精度和任务成功率，为机器人服装操作提供了更灵活、更通用的解决方案。此外，这项研究还强调了 VLMs 在单个框架内统一各种服装操作任务的潜力，为未来的家庭自动化和辅助机器人应用铺平了道路。

发布时间: 9/27/2024

查看原文

FreeEdit：基于多模态指令的无掩码参考图像编辑

作者: Runze He, Kai Ma, Linjiang Huang, Shaofei Huang, Jialin Gao, Xiaoming Wei, Jiao Dai, Jizhong Han, Si Liu

在图像编辑中引入用户指定的视觉概念非常实用，因为这些概念比基于文本的描述更精确地传达了用户的意图。我们提出了 FreeEdit，一种实现这种基于参考的图像编辑的新方法，它可以根据用户友好的语言指令准确地从参考图像中复制视觉概念。我们的方法利用多模态指令编码器来编码语言指令，以指导编辑过程。这种隐式定位编辑区域的方式消除了对手动编辑蒙版的需求。为了增强参考细节的重建，我们引入了解耦残差参考注意力 (DRRA) 模块。该模块旨在以残差方式将细节提取器提取的细粒度参考特征集成到图像编辑过程中，而不会干扰原始的自注意力。鉴于现有数据集不适合基于参考的图像编辑任务，特别是由于构建包含参考图像的图像三元组的难度，我们使用新开发的双重重绘方案精心策划了一个高质量数据集 FreeBench。FreeBench 包含编辑前后图像、详细的编辑说明以及保持被编辑对象身份的参考图像，涵盖对象添加、替换和删除等任务。通过在 FreeBench 上进行分阶段训练，然后进行质量调整，FreeEdit 通过便捷的语言指令实现了高质量的零样本编辑。我们进行了广泛的实验来评估 FreeEdit 在多种任务类型中的有效性，证明了其优于现有方法。代码将发布在：https://freeedit.github.io/。

发布时间: 9/27/2024

查看原文

基于概念图的视觉数据诊断与去偏

作者: Rwiddhi Chakraborty, Yinong Wang, Jialu Gao, Runkai Zheng, Cheng Zhang, Fernando De la Torre

如今深度学习模型的广泛成功归功于规模和复杂度都十分庞大的数据集的精心整理。然而，这些模型在训练过程中经常会吸收数据中固有的偏差，导致预测结果不可靠。因此，诊断和消除数据集偏差对于确保模型的可靠性能至关重要。本文提出了CONBIAS，一个用于诊断和缓解视觉数据集中的概念共现偏差的新框架。CONBIAS将视觉数据集表示为概念知识图，能够仔细分析虚假概念共现，从而揭示整个数据集中的概念不平衡。此外，我们表明，通过采用一种新颖的基于团的概念平衡策略，我们可以缓解这些不平衡，从而提高下游任务的性能。大量实验表明，基于CONBIAS增强的平衡概念分布的数据增强方法，与最先进的方法相比，在多个数据集上都提高了泛化性能。我们将公开发布我们的代码和数据。

发布时间: 9/27/2024

查看原文

双层规划：自动驾驶中的推理

作者: Dingrui Wang, Marc Kaufeld, Johannes Betz

我们提出了一种名为 DualAD 的全新自动驾驶框架，旨在模仿人类驾驶过程中的推理方式。DualAD 包含两层：底层是一个基于规则的运动规划器，负责处理只需最少推理的常规驾驶任务；顶层则包含一个基于规则的文本编码器，将驾驶场景从绝对状态转换为文本描述。随后，大型语言模型 (LLM) 处理该文本以做出驾驶决策。当检测到潜在危险时，顶层会介入底层的决策，模拟人类在关键情况下的推理方式。闭环实验表明，DualAD 使用零样本预训练模型，显著优于缺乏推理能力的基于规则的运动规划器。我们的实验还突出了文本编码器的有效性，它极大地增强了模型对场景的理解。此外，集成的 DualAD 模型在更强大的 LLM 的支持下得到了改进，表明该框架具有进一步增强的潜力。我们公开发布了代码和基准。

发布时间: 9/27/2024

查看原文