arXiv:2503.19801v1 公告类型:跨领域
摘要:尽管深度学习(DL)方法在许多医学图像分析任务中展示了巨大的潜力,但由于缺乏足够的带有手动标注的数据样本,医学DL模型的实际应用受到限制。鉴于临床放射学检查与描述图像的放射学报告相关,我们提出了一种利用对比学习方法开发多模态头颅MRI基础模型的方法。特别地,提出了一种对比学习框架,其中集成了混合语法和语义相似性匹配度量来减少传统对比学习框架中对极端大规模数据集的需求。我们提出的增强相似性的对比语言图像预训练(SeLIP)能够有效提取更多有用的特征。实验表明,我们提出的SeLIP在包括图像-文本检索任务、分类任务和图像分割在内的多个下游任务中表现良好,强调了在开发医学图像基础模型时考虑描述不同图像的文字之间的相似性的重要性。
arXiv:2503.19794v1 适应类型: 交叉
摘要: 预训练视频大型语言模型(Video LLMs)展示了出色的推理能力,但将这些模型适应于涉及额外模态或数据类型的新任务(例如,音频或三维信息)仍然具有挑战性。在本文中,我们提出了PAVE,这是一种灵活的框架,用于通过旁路信号(如音频、三维线索或多视角视频)对预训练的Video LLMs进行下游任务的适应。PAVE引入了轻量级的adapter,称为“补丁”,这些补丁在不修改基础模型架构或预训练权重的情况下,增加了少量的参数和操作。通过这种方式,PAVE能够有效地将预训练的基础模型适应于各种下游任务,包括视听问答、三维推理、多视角视频识别和高帧率视频理解。在这些任务中,PAVE显著提升了基础模型的性能,在增加不到0.1%的额外FLOPs和参数成本的情况下,超过了最先进的特定任务模型。此外,PAVE支持多任务学习,并且能够在不同Video LLMs之间表现出良好的泛化能力。我们的代码可在https://github.com/dragonlzm/PAVE上获得。
arXiv:2503.19786v1 Announce Type: cross
摘要:我们介绍了Gemma 3,这是一个轻量级开源模型家族的多模态扩展,参数规模从10亿到270亿不等。这一版本引入了视觉理解能力,覆盖更多语言,并支持更长的上下文——至少128K个令牌。我们还更改了模型的架构,以减少随着上下文变长而膨胀的KV缓存内存。这通过增加局部注意力层与全局注意力层的比例并保持局部注意力跨度简短来实现。Gemma 3模型采用蒸馏训练,并在预训练和指令微调版本中均表现出色。特别是,我们全新的后训练配方显著提高了数学、聊天、指令跟随和多语言能力,使得Gemma3-4B-IT与Gemma2-27B-IT相当,并使Gemma3-27B-IT在基准测试中与Gemini-1.5-Pro相当。我们将所有模型发布给社区。
arXiv:2503.19753v1 事件类型: cross
摘要:由于其高时间分辨率、低延迟和高动态范围,事件相机在3D重建方面引起了越来越多的关注。它们以像素级亮度变化的方式异步捕捉图像,这使得在快速运动和复杂光照条件下实现准确的重建成为可能。在这篇综述中,我们提供了一个全面的事件驱动3D重建方法的回顾,包括双目、单目和多模态系统。我们进一步基于几何方法、学习方法和混合方法对近期发展进行了分类。还涵盖了新兴趋势,如神经辐射场和基于事件数据的3D高斯点积等。相关工作按时间顺序结构化,以展示该领域的创新和发展。为了支持未来的研究,我们还指出了数据集、实验、评估、事件表示等方面的几个关键研究缺口和未来研究方向。
arXiv:2503.19730v1 宣布类型:交叉
摘要: 视频伪装目标分割(VCOS)旨在分割与环境无缝融合的伪装目标,是具有多种实际应用的基本视觉任务。随着SAM2的发布,视频分割已经取得了显著的进步。然而,SAM2分割伪装视频的能力并不理想,尤其是当使用简单的提示,如点和框时。为了解决这个问题,我们提出了伪装SAM2(CamSAM2),该方法增强了SAM2处理伪装场景的能力,而无需修改SAM2的参数。具体来说,我们引入了一个去伪装令牌,以提供针对VCOS的功能调整灵活性。为了充分利用当前帧和以前帧的精细和高分辨率特征,我们分别提出了隐式对象感知融合(IOF)模块和显式对象感知融合(EOF)模块。我们引入了对象原型生成(OPG),使用上一帧中的高质量特征来抽象和记忆包含信息细节的对象原型。进行了广泛的实验来验证我们方法的有效性。尽管CamSAM2仅对SAM2增加了几乎没有可学习的参数,但在三个VCOS数据集中,它显著优于SAM2,特别是在MoCA-Mask上使用点击提示时获得了12.2 mDice的提升,在SUN-SEG-Hard上使用掩码提示时获得了19.6 mDice的提升,以Hiera-T作为骨干。代码将在 \href{https://github.com/zhoustan/CamSAM2}{github.com/zhoustan/CamSAM2} 可用。
arXiv:2503.19719v1 交叉公告类型
摘要:近年来,地球观测(EO)领域涌现出了一种稳健的多源模型的发展。这些模型通过利用多样化的数据源来提高在数据缺失情况下的预测准确性。尽管取得了这些进展,但影响此类模型不同有效性因素的理解依然不足。在本研究中,我们评估了六种最先进的多源模型在单一数据源缺失或仅有一种数据源可用情况下的预测性能。我们的分析揭示,这些模型的效果与任务的性质、数据源之间的互补性以及模型设计密切相关。令人惊讶的是,我们发现移除某些数据源反而能提高预测性能的情况,挑战了仅采用所有可用数据总是有益的假设。这些发现促使我们对模型复杂性以及所有收集数据源的必要性进行深入反思,可能会影响EO应用中更简洁方法的发展方向。
arXiv:2503.19717v1 Announce Type: cross
摘要:柯普曼算子理论因其能够为非线性动力系统提供全局线性化表示而成为数据驱动建模的热门候选方法。然而,现有的基于柯普曼算子的方法在构建良好的可观测函数及其逆函数方面存在不足,并且在处理偏微分方程(PDEs)时效率不够高。为了解决这些问题,本文提出了一种新颖的数据驱动建模方法——可逆柯普曼神经算子(IKNO),该方法受到柯普曼算子理论和神经算子的启发。IKNO 利用可逆神经网络同时参数化可观测函数及其逆函数,在相同的可学习参数下,明确确保重构关系,从而消除了对重构损失的依赖,这是相对于原始柯普曼神经算子(KNO)的一个重要改进。受到柯普曼算子理论启发的结构化线性矩阵参数化使得IKNO可以在频域中学习可观测量低频模式的演化,而不是直接在可观测空间中学习,从而保持IKNO在分辨率上不变,类似于其他神经算子。此外,通过插值和维度扩展等预处理,IKNO可以扩展到非笛卡尔域上的算子学习任务。我们基于丰富的数值和真实世界的示例全面支持上述声明,并展示了IKNO的有效性及相较于其他神经算子的优势。
arXiv:2503.19712v1 交叉公告类型
摘要:本文提出了一种神经框架,通过独立建模全局刚体运动和局部结构变形来预测三维车辆碰撞动力学。与直接预测绝对位移的方法不同,这种方法显式地将车辆的整体平移和旋转与结构变形分开。框架的核心由两个专门的网络构成:基于四元数的刚体网(Rigid Net)用于刚体运动,坐标基于的变形网(Deformation Net)用于局部变形。通过独立处理基本不同的物理现象,所提出架构能够在无需为每个组件单独监督的情况下实现准确的预测。该模型仅在可用仿真数据的10%上进行训练,显著优于基础模型,包括单一多层感知器(MLP)和深度操作网络(DeepONet),预测错误降低了高达83%。广泛的验证显示,该框架能够很好地泛化到训练范围之外的碰撞条件,即使在涉及极端速度和大碰撞角度的严重冲击下也能准确预测响应。此外,该框架能够从低分辨率输入中重建高分辨率的变形细节,而不会增加计算成本。因此,提出的方法提供了一种有效、计算高效的快速且可靠的车辆安全性评估方法,大幅减少了所需的仿真数据和时间,同时保持了预测准确性。
arXiv:2503.19711v1 宣告类型: cross
摘要: 对于 LLM(大型语言模型),开放性任务特别具有挑战性,因为解决方案空间非常庞大,这要求模型不仅要进行广泛的探索,还要具备灵活的策略,尤其是在成功的定义并不清晰和客观的情况下。写作由于其广阔的解决方案空间和主观的评估标准,提供了一个研究这类问题的理想测试平台。在本文中,我们探讨了LLMs作为协作共同写作者的潜力,它们能够自主地提出并实施文本改进。我们分析了三个备受瞩目的LLM——Gemini 1.5 Pro、Claude 3.5 Sonnet和GPT-4o,重点关注它们的行为多样性、与人类的对齐以及迭代改进能力如何影响整体性能。本文建立了一个自动写作代理的基准测试框架,并且更广泛地突出了构建能够在各种开放性领域取得优异表现的系统所面临的根本性挑战和潜在解决方案。
arXiv:2503.19706v1 宣告类型: cross
摘要: 从主观视角(第一人称,ego)和客观视角(第三人称,exo)视频中学习不变视图表示是一种朝着跨多视角泛化视频理解系统的方法。然而,由于主观和客观视图之间视角、运动模式和上下文的巨大差异,这个领域一直被忽视。在本文中,我们提出了一种新颖的自我-客观视角建模方法,称为Bootstrap Your Own Views (BYOV),以针对未配对的自我-客观视角视频进行细粒度的视图不变视频表示学习,同时促进因果时间动态和跨视角对齐。我们强调捕捉人类动作的组合性质是实现稳健的跨视角理解的基础。具体而言,自我视角掩蔽和跨视角掩蔽预测设计旨在同时学习视图不变且强大的表示。实验结果表明,我们的BYOV在所有四个下游主观-客观视角任务中,在所有指标上的表现显著优于现有方法。源代码可在 https://github.com/park-jungin/byov 获取。