arXiv:2503.12649v2 宣布类型: 替换-交叉
摘要:模型合并已经成为多任务学习(MTL)的一种有前景的方法,提供了与传统微调相比更有效的数据利用方式。然而,随着开源AI生态系统的快速发展和微调基础模型的日益可用,现有的模型合并方法面临着两个关键限制:(i) 它们主要针对内部微调模型设计,使得它们在面对部分未知模型和任务信息的多样化模型来源时较不适应;(ii) 在合并大量模型检查点时,它们难以有效扩展。为了解决这些挑战,我们将模型合并形式化为一个受限优化问题,并引入了一种新型方法:Frank-Wolfe 合并(FW-Merging)。受到Frank-Wolfe优化的启发,我们的方法会迭代地从池中选择最相关的模型来最小化目标函数的线性近似,然后执行类似于Frank-Wolfe更新的局部合并。目标函数设计用于捕捉目标合并模型所需的行为,而微调候选模型定义了约束集。更重要的是,FW-Merging 是现有合并方法的一个正交技术,可以无缝集成到它们中以进一步提高准确性性能。我们的实验表明,FW-Merging 能跨多种模型来源扩展,即使在与16个无关模型共存时仍能保持稳定,并且在与16个相关模型合并时在20个CV任务上提高了15.3%,同时保持了恒定的内存开销,而不同于数据驱动合并方法的线性内存开销。与最先进的方法相比,当合并20个ViT模型时,FW-Merging 在无数据合并方法上的性能超过了32.8%,在数据驱动的Adamerging上的性能超过了8.39%。我们的代码已开源在 github.com/hmarkc/FW-Merging。
arXiv:2503.12356v2 Announce Type: replace-cross
摘要:基于微调的概念擦除已经在防止从文本到图像的扩散模型生成有害内容方面取得了有前途的结果,通过移除目标概念同时保留其余概念。为了在消除概念后保持扩散模型的生成能力,必须仅在图像中局部出现目标概念时移除包含该目标概念的图像区域,而使其他区域保持不变。然而,先前的技术往往以牺牲其他图像区域的保真度为代价,来消除特定区域中出现的局部目标概念,从而降低了图像生成的整体性能。为了解决这些限制,我们首先介绍了一种称为局部概念擦除的框架,该框架允许仅删除包含目标概念的特定区域,同时保留其他区域。作为局部概念擦除的解决方案,我们提出了一个无需训练的方法,称为门控低秩适应的概念擦除(GLoCE),将在扩散模型中注入一个轻量级模块。GLoCE 包含低秩矩阵和一个由少量生成步骤确定的简单门控机制,而无需训练。通过直接将GLoCE应用于图像嵌入,并设计门控机制仅在目标概念生成时激活,GLoCE 可以仅选择性地移除目标概念的区域,即使在图像中同时存在目标概念和剩余概念。广泛实验表明,GLoCE 不仅在擦除局部目标概念后提高了图像对文本提示的保真度,而且在有效性、特异性及鲁棒性方面也显著优于先前的技术,并且可以扩展到大规模概念擦除。
arXiv:2503.11741v3 通知类型:替换交叉
摘要:生物信号,如脑电图(EEGs)和心电图(ECGs),在众多临床实践中发挥着关键作用,例如诊断大脑和心脏的节律性疾病。现有的生物信号分类方法依赖于基于注意力的框架和密集的前馈层,这导致了学习效率低下、高计算开销和性能不佳。在本文中,我们引入了BioMamba,这是一种应用于双向Mamba框架的时频嵌入策略,结合了稀疏前馈层,以实现有效的生物信号序列学习。通过整合这三个关键组件,BioMamba有效解决了现有方法的局限性。广泛的实验表明,BioMamba在分类性能上显著超过了最新的方法,具有明显的优势。提出的BioMamba的优点包括:(1)可靠性:BioMamba在六项评估指标上始终能够提供稳健的结果。(2)效率:我们评估了模型和训练的效率,BioMamba通过减少模型大小和资源消耗显示出了计算上的有效性,相比现有方法更为高效。(3)通用性:BioMamba能够有效地分类多种任务,证明了其在不同领域和应用中的适应性和有效性。
arXiv:2503.10603v3 宣布类型: replace-cross
摘要:情感模仿强度(EMI)估计在理解和人类社会行为以及推进人机交互方面发挥着关键作用。核心挑战在于动态相关性建模和多模态时间信号的稳健融合。为了应对现有方法的限制——跨模态协同效应利用不足、对噪声敏感以及受限的精细对齐能力——本文提出了一种双阶段跨模态对齐框架。第一阶段基于CLIP架构开发了视觉-文本和音频-文本对比学习网络,通过模态解耦预训练初步实现特征空间对齐。第二阶段引入了时间感知动态融合模块,该模块结合了时序卷积网络(TCN)和门控双向LSTM,分别捕捉面部表情的宏观演变模式和声学特征的局部动态。一种新颖的质量导向融合策略进一步允许在遮挡和噪声条件下对模态进行可微权重分配。在Hume-Vidmimic2数据集上的实验结果显示,在验证集上六种情绪维度的平均皮尔森相关系数为0.51,性能优越。值得注意的是,我们的方法在测试集上达到了0.68,获得了第8届ABAW(野外情绪行为分析)竞赛EMI挑战轨道的亚军,为开放环境中的精细情绪分析提供了一种新的途径。
arXiv:2503.10530v2 通知类型:替换-交叉
摘要:在本研究中,我们提出了一种使用MobileNetV4和多尺度3D MLP-Mixer基时序聚合模块的有效时空特征提取方法。MobileNetV4,通过其通用倒置瓶颈(UIB)块,作为骨干网络,从输入图像序列中提取分层特征表示,确保了计算效率和丰富的语义编码。为了捕捉时序依赖性,我们引入了一个三层MLP-Mixer模块,能够在保持结构完整性的前提下对多个空间分辨率下的特征进行处理。在ABAW第8届竞赛上的实验结果表明,我们提出的方法在情感行为分析方面具有有效性,并展示了令人振奋的性能。通过结合高效的视觉骨干网络和有结构的时间建模机制,所提出的框架在计算效率和预测准确性之间达到了平衡,使其非常适合移动和嵌入式计算环境中的实时应用。
arXiv:2503.07671v3 安全类型: replace-cross
摘要:在现实场景中,一个旨在最大化奖励的强化学习(RL)代理不仅要表现得安全,而且在训练期间也是如此。因此,近年来,安全强化学习(Safe RL)受到了广泛关注,其中代理的目标是在所有满足给定安全约束的策略中学习最优策略。然而,严格的安全保障通常通过基于线性规划的方法提供,因此具有有限的扩展性。在本文中,我们提出了一种新的可扩展方法,该方法在Markov决策过程(MDP)的安全动力学已知且安全被定义为未贴现概率避险特性的情况下,享有严格的正式保障。我们的方法基于MDP的状态扩充,并设计了一个限制可用动作的屏蔽。我们展示了我们的方法在代理在训练和测试期间保持安全方面提供了严格的正式安全保障。此外,我们通过实验评估证明了该方法在实践中是可行的。
arXiv:2503.07588v2 宣告类型: replace-cross
摘要:高效地理解和处理大型遥感图像(RSI)在视觉和语言之间具有重要意义但同时也极具挑战性。当前的大型视觉-语言模型(LVLMs)通常使用有限的预定义网格来处理图像,在处理几兆像素级的RSI时会导致信息丢失。相反,使用无限的网格会显著增加计算成本。为了在保持图像细节的同时减少计算复杂性,我们提出了一种结合动态图像金字塔(DIP)的文本引导的token剪枝方法。我们的方法引入了:(i) 一个区域聚焦模块(RFM),该模块利用了文本感知的区域定位能力来识别关键的视觉token;(ii) 一种粗到细的图像瓷砖选择和视觉token剪枝策略,该策略基于DIP,并由RFM的输出引导,避免直接处理整个大型图像。此外,现有的评估LVLMs在大型RSI上感知能力的基准功能有限,图像多样性不足且图像大小受限。我们构建了一个新的基准,称为LRS-VQA,其中包含7,333个问答对,覆盖8个类别,并且图像长度高达27,328像素。我们的方法在四个数据集上优于现有的高分辨率策略,且在高分辨率设置下,我们的方法也表现出更高的效率。数据集和代码可在https://github.com/VisionXLab/LRS-VQA获取。
arXiv:2503.07565v5 生成类型:替换-交叉
摘要:扩散模型和流匹配生成高质量的样本,但在推理速度上较慢,将它们提炼为少数步数的模型往往会带来不稳定性和大量的调优。为了解决这些权衡,我们提出了一种新的生成模型类别——归纳矩匹配(Inductive Moment Matching,IMM),它具有一阶段的训练过程,适用于一步或少数几步的采样。与提炼不同,IMM 不需要预先训练初始化和两个网络的优化;与一致性模型不同,IMM 保证了分布级别的收敛,并能在各种超参数和标准模型架构下保持稳定。IMM 在 ImageNet-256x256 上仅使用 8 步推理就超越了扩散模型,实现了从零开始训练的 CIFAR-10 上最先进的 2 步 FID 结果,为 1.98。
arXiv:2503.06514v2 宣传类型: 替换交叉
摘要:视觉-语言模型(VLMs)在通过任务特定微调后,在序列决策任务中展现出了令人鼓舞的进步。然而,常见的微调方法,如监督微调(SFT)和基于强化学习(RL)的技术(如近端策略优化PPO),存在明显的局限性:SFT 假设数据独立且同分布(IID),而 PPO 则关注最大化累积奖励。这些局限性往往限制了解决方案的多样性,并阻碍了在多步推理任务中的泛化能力。为了解决这些挑战,我们提出了一种新的框架 GFlowVLM,该框架使用生成流网络(GFlowNets)来微调 VLMs,以促进为复杂推理任务生成多样化的解决方案。GFlowVLM 将环境建模为非马尔可夫决策过程,使其能够捕捉到对于实际应用至关重要的长期依赖关系。它接受观察和任务描述作为输入,以提示思维链(CoT)推理,随后指导行动选择。我们使用基于任务的奖励来使用 GFlowNets 微调 VLMs。这种方法使 VLMs 能够超越先前的微调方法,包括 SFT 和 RL。实证结果表明,GFlowVLM 在复杂任务(如卡片游戏(NumberLine, BlackJack)和感知计划任务(ALFWorld))上表现出有效性,展示了增强的训练效率、解决方案的多样性以及更强的泛化能力,涵盖分布内和分布外场景。
arXiv:2503.06413v2 Announce Type: replace-cross
摘要:尽管多年来开发了大量的异常检测模型,但在全新的异常情况下的泛化能力仍然是一个挑战,尤其是在关键系统中。本文旨在通过引入Swift Hydra,一个基于生成人工智能和强化学习(RL)的新框架,来解决这一挑战。Swift Hydra框架通过在生成模型的潜在变量上操作一个RL策略,生成新颖且多样的异常样本,这些样本能够绕过检测模型。生成的合成样本随后用于增强检测模型,进一步提高其处理挑战性异常的能力。Swift Hydra还结合了作为专家混合(MoE)结构的Mamba模型,以根据数据复杂性可扩展地适应Mamba专家的数量,有效地捕获多样的特征分布而不增加模型的推理时间。在ADBench基准测试上的实证研究表明,Swift Hydra在保持相对短的推理时间的同时,优于其他最先进的异常检测模型。从这些结果可以看出,我们的研究展示了将RL与生成人工智能结合的新前景,以促进异常检测的进步。