arXiv:2503.20685v2 公告类型: replace-cross
摘要:2D 乳腺超声(BUS)和3D 自动乳腺超声(ABUS)中的结节精确分割对于临床诊断和治疗规划至关重要。因此,开发自动结节分割系统可以增强用户的独立性并加速临床分析。与完全监督学习不同,弱监督分割(WSS)可以简化劳动密集且复杂的标注过程。然而,当前的WSS方法在实现精确的结节分割方面面临挑战,因为许多方法依赖于不准确的激活图或低效的伪掩码生成算法。在这项研究中,我们介绍了一种基于多代理强化学习的WSS框架,称为Flip Learning,该框架仅依赖于2D/3D盒子来进行精确分割。具体来说,使用多个代理将目标从盒子中擦除以促进分类标签翻转,擦除的区域作为预测分割掩码。本文的主要贡献如下:(1) 采用基于超像素/超体素的方法来编码标准化环境,捕捉边界先验并加速学习过程。(2) 引入三种精心设计的奖励,包括分类分数奖励和两种强度分布奖励,以精确引导代理的擦除过程,从而避免欠分割和过分割。(3) 实施逐步课程学习策略,使代理能够以更具挑战性的方式与环境交互,从而提高学习效率。在大规模内部构建的BUS和ABUS数据集上广泛验证,我们的Flip Learning方法优于最先进的WSS方法和基础模型,并且在性能上与完全监督学习算法相当。
arXiv:2503.20074v2 宣告类型:替换交叉
摘要:生成AI工作负载的激增催生了对能够灵活利用GPU和专用加速器同时又能控制运营成本的可扩展推理系统的需求。本文提出了一种硬件无关的控制环路,该环路根据实时的成本和容量信号适应性地分配请求到异构加速器。该方法通过动态在成本优化模式和容量优化模式之间切换来维持低延迟和高吞吐量,确保在可变可用性下最有效地利用昂贵的计算资源。通过使用Stable Diffusion模型进行评估,该框架一致地满足延迟目标,在容量短缺时自动重定向流量,并在可能的情况下利用低成本加速器。这些结果突显了如何通过跨越整个软件和硬件堆栈的基于反馈的部署策略,有助于组织在面对有限的加速器容量时高效扩展生成AI工作负载并保持弹性。
arXiv:2503.19654v2 通知类型: replace-cross
摘要: 我们介绍了RGB-Th-Bench,这是第一个用于评估视觉-语言模型(VLMs)理解RGB-热成像图像对能力的基准。尽管VLMs在视觉推理和多模态理解方面取得了显著进展,但它们的评估仍主要局限于基于RGB的基准,这在评估它们在红外视觉任务中的能力方面留下了关键缺口。现有的可见光-红外数据集要么是任务特定的,要么缺乏进行严格模型评估所需的高质量注释。为了解决这些限制,RGB-Th-Bench提供了一个全面的评估框架,涵盖了14个不同的技能维度,总共有1,600多个由专家标注的Yes/No问题。基准测试采用两种准确度指标:标准的问题级准确度和更严格的技能级准确度,后者评估模型在每个技能维度内多个问题中的鲁棒性。这种设计确保了对模型性能进行全面评估,包括对其对抗性和幻觉响应的抗性。我们在19个最先进的VLMs上进行了广泛的评估,揭示了RGB-Thermal理解的巨大性能差距。我们的结果表明,即使是最强大的模型在理解热图像方面也面临挑战,其性能受到其基于RGB的能力的重大限制。此外,预训练中缺乏大规模的应用特定和专家标注的热成像图-说明对的数据集也是观察到的性能差距的重要原因之一。RGB-Th-Bench突显了需要进一步改进多模态学习,以弥合可见光和热图像理解之间的差距。该数据集可通过此链接获取,评估代码也将公开发布。
arXiv:2503.19285v2 通告类型: 更新
摘要:尽管深度学习模型在临床预测任务中表现出卓越的性能,但解释性仍是一个显著的挑战。受到变压器架构的启发,我们引入了时变特征交叉注意机制(TFCAM),这是一种用于捕捉临床特征随时间动态交互的新颖深度学习框架,从而增强了预测准确性和解释性。在一项基于1422名慢性肾病患者的实验中,预测进展至终末期肾病,TFCAM 在LSTM和RETAIN基准之上表现出色,AUROC为0.95,F1分数为0.69。除了性能提升之外,TFCAM 还通过识别关键的时间周期、排名特征重要性以及量化特征在时间上的相互影响如何影响预测,提供了多级解释性。我们的方法解决了深度学习在医疗保健中的“黑盒”问题,为临床医生提供了关于疾病进展机制的透明见解,同时保持了最先进的预测性能。
arXiv:2503.19176v2 公告类型: replace-cross
摘要:音频水印越来越多地用于验证AI生成内容的来源,使其能够应用于检测AI生成的语音、保护音乐版权以及防范声音克隆。为了有效,音频水印必须能够抵抗那些会扭曲信号以逃避检测的去除攻击。尽管许多方案声称具有稳健性,但这些声明通常是在孤立情况下进行测试,并且仅针对少数几种攻击。缺乏对多样去除攻击的系统性评估,阻碍了实际部署。在这篇文章中,我们研究了那些声称稳健的最新水印方案是否能够抵御广泛的去除攻击。首先,我们引入了一种涵盖22个音频水印方案的分类体系。接下来,我们总结了这些方案所基于的技术和潜在的漏洞。然后,我们进行了大规模的经验性研究以评估它们的稳健性。为了支持这一点,我们建立了一种评估框架,共涵盖22种类型的去除攻击(109种配置),包括信号级、物理级和AI引起的失真。我们使用开源代码重现了9个水印方案,发现了8种新的非常有效的攻击,并指出了11个关键发现,这些发现揭示了这些方法在3个公开数据集上的根本局限性。我们的结果显示,调查中调查的任何方案都无法抵御所有测试的失真。这种评估提供了对当前水印方法在真实世界威胁下表现的全面看法。我们提供了演示和代码,可在 https://sokaudiowm.github.io/ 获取。
arXiv:2503.18684v2 Announce Type: replace-cross
摘要:持续适应是通用自主代理的关键。例如,一个预训练了一套技能的家用机器人,仍需适应每个家庭特有的未见过的任务。受此启发,基于语言模型中的参数高效微调,先前的工作已经探索了轻量级适配器来调整预训练策略,这些适配器可以保留预训练阶段学到的特征,并表现出良好的适应性能。然而,这些方法将任务学习分开处理,限制了不同任务之间的知识迁移。在本文中,我们提出了在线元学习适配器(OMLA)。与其直接应用适配器,OMLA可以通过一个新颖的元学习目标促进先前学习任务的知识转移到当前学习任务中。在模拟和实际环境中的广泛实验表明,OMLA相比基线方法可以带来更好的适应性能。项目链接:https://ricky-zhu.github.io/OMLA/。
arXiv:2503.17132v2 通告类型: replace-cross
摘要: 本文探讨了脉冲神经网络(SNNs)与事件驱动摄像头在隐私保护的人体动作识别(HAR)中的前景互补。事件驱动摄像头只捕捉运动的轮廓这一独特功能,结合SNNs在通过脉冲处理时空数据方面的专长,为事件驱动HAR提供了很强的协同兼容性。然而,先前的研究由于SNNs处理长期时空信息的能力有限,使得准确的人体动作识别变得困难。在本文中,我们引入了两个新的框架来解决这一问题:时间段基SNN(TS-SNN)和3D卷积SNN(3D-SNN)。TS-SNN通过将动作分成更短的片段来提取长期的时空信息,而3D-SNN则用3D组件替换2D空间元素,以促进时空信息的传递。为了促进事件驱动HAR的进一步研究,我们创建了一个数据集FallingDetection-CeleX,该数据集使用高分辨率的CeleX-V事件驱动摄像头(分辨率为1280×800)收集,并包括7种不同的动作。广泛的实验结果表明,我们提出的框架在我们新收集的数据集以及另外三个神经形态数据集上超过了最先进的SNN方法,展示了它们在处理事件驱动HAR中的长期时空信息方面的有效性。
arXiv:2503.17125v4 丢弃类型: replace-cross
摘要: 深度强化学习(DRL)在机器人控制方面展示了强大的性能,但仍然容易受到分布外(OOD)状态的影响,常常导致不可靠的行为和任务失败。尽管之前的某些方法集中在最小化或防止OOD状态的出现,但对于代理遇到此类状态后的恢复却几乎没有予以考虑。虽然最新的研究试图通过引导代理返回到分布内状态来解决这个问题,但它们对不确定性的估计限制了其在复杂环境中的可扩展性。为了克服这一限制,我们引入了基于语言模型的分布外恢复(LaMOuR),它可以不依赖于不确定性估计来进行恢复学习。LaMOuR 生成密集的奖励码,引导代理返回到可以成功完成原始任务的状态,并利用LVLM 在图像描述、逻辑推理和代码生成方面的能力。实验结果显示,LaMOuR 显著提高了不同运动任务的恢复效率,并且在复杂的环境中表现出良好的泛化能力,包括类人步行和移动操作,而现有的方法在这些环境中则表现不佳。相关代码和补充材料可在 https://lamour-rl.github.io/ 获取。
arXiv:2503.15469v3 通知类型: 替换-交叉
摘要:文本分类是自然语言处理中的一个基本任务,旨在将文本数据归类为预定义的标签。传统方法在处理复杂的语言结构和语义依赖方面存在困难。然而,深度学习的兴起,尤其是循环神经网络和基于Transformer的模型,极大地推动了该领域的进步,通过实现精细的特征提取和上下文感知的预测。尽管这些改进取得了显著成果,现有的模型仍然在平衡可解释性、计算效率和长范围上下文理解方面存在局限。为了解决这些挑战,本文提出了一种动态双向Elman注意力网络(DBEAN)。DBEAN结合了双向时间建模与自注意力机制。它动态地为输入的关键段分配权重,从而改进上下文表示并保持计算效率。
arXiv:2503.14734v2 公告类型: 替换-交叉
摘要:通用机器人需要多用途的身体和智能的头脑。最近人类机器人领域的进展展示了将其作为构建人世间通用自主性的硬件平台的巨大潜力。通过对大量和多样化的数据源进行训练的机器人基础模型对于使机器人能够推理新的情况、稳健地处理现实世界的变异性以及快速学习新任务至关重要。为此,我们引入了GR00T N1,一种开放的基础模型,为人类机器人提供支持。GR00T N1 是一种具有双系统架构的视觉-语言-行动(VLA)模型。视觉-语言模块(系统2)通过视觉和语言指令来解释环境。随后的扩散变压器模块(系统1)可以在实时生成流体动作。两个模块紧密连接,并且是端到端联合训练的。我们使用异质混合的实机器人轨迹、人类视频和合成生成的数据集来训练GR00T N1。我们展示了我们的通用机器人模型GR00T N1在多个机器人形态的标准模拟基准测试中超越了最先进的模仿学习基线。此外,我们将在Fourier GR-1人类机器人上部署我们的模型,用于语言条件下的双臂操作任务,实现了高效的数据性能。