arXiv:2504.06753v1 交叉公告类型:跨类型
摘要:音频生成技术的迅速发展加剧了语音、声音、歌声和音乐中恶意深度假音的风险,威胁了多媒体的安全性和可信度。虽然现有的防范措施(CMs)在单类型音频深度假音检测(ADD)中表现良好,但在跨类型场景下的表现却有所下降。本文致力于研究跨类型ADD任务。我们首次全面建立了跨类型ADD基准,用于评估当前CMs,该基准涵盖了语音、声音、歌声和音乐中的跨类型深度假音检测。然后,我们介绍了提示调谐自监督学习(PT-SSL)训练范式,该范式通过学习针对ADD的专业提示标记优化了SSL前端,所需要的可训练参数比微调(FT)少458倍。考虑到不同音频类型的声音感知,我们提出了小波提示调谐(WPT)-SSL方法,该方法在频率域中捕捉类型不变的声音深度假音信息,无需额外的训练参数,从而在所有类型ADD任务中超过了FT的性能。为了实现普遍适用的CM,我们使用了所有类型的真实深度假音音频进行联合训练。实验结果表明,WPT-XLSR-AASIST在所有评估集中获得了最佳性能,平均EER为3.58%。代码已在线提供。
arXiv:2504.06738v1 类型: cross
摘要: 在本文中,我们提出了 EDIT (Encoder-Decoder Image Transformer) 这种新型架构,旨在缓解在 Vision Transformer 模型中观察到的注意力陷阱现象。注意力陷阱是指将过多的注意力分配给 [CLS] 标记,从而扭曲了模型有效处理图像块的能力。为了解决这个问题,我们引入了一种层对齐的编码器-解码器架构,其中编码器使用自注意力来处理图像块,而解码器使用交叉注意力聚焦于 [CLS] 标记。与传统的编码器-解码器框架不同,在该框架中解码器仅依赖高层编码器表示,EDIT 允许解码器从低层特征开始提取信息,并逐层逐步精细化表示。通过顺序注意力图展示了 EDIT 的自然可解释性,这些图示解释了逐层细化对关键图像特征的关注。在 ImageNet-1k 和 ImageNet-21k 上的实验以及迁移学习任务中,EDIT 在 DeiT3 模型上展现了持续的性能改进。这些结果突显了 EDIT 设计在解决注意力陷阱和改进视觉特征提取方面的有效性。
arXiv:2504.06721v1 Announce Type: cross
摘要:本文简要描述了我们 propose 的解决方案,用于在 2025 年 ICRA 会议举办的第三次“RealAIGym AI 运动会”竞赛。我们采用了蒙特卡洛概率推理用于学习控制 (MC-PILCO) 算法,这是一种已被认可在多种低维度机器人任务中表现出色的数据高效 MBRL 算法,包括双杆、球和平板以及 Furuta 摆系统。MC-PILCO 通过交互数据优化系统动力学模型,从而使通过模拟而不是直接通过系统数据优化来实现策略改进成为可能。在物理系统中,这种方法已被证明非常有效,其数据效率超过了许多无模型(MF)的替代方案。值得注意的是,MC-PILCO 在此竞赛的前两版中已经获胜,展示了其在模拟和真实世界环境中的鲁棒性。除了简要回顾算法之外,我们还讨论了在这种任务中 MC-PILCO 实现的关键方面:学习摆DubBot 和 acrobot 系统的全局策略。
arXiv:2504.06719v1 公布类型:交叉
摘要:自监督学习通过使在大型未标注数据集上训练的模型能够提供与带标签训练的模型表现相似的通用即插即用特征,从而改变了2D计算机视觉领域。然而,在3D场景理解中,自监督方法通常仅用作特定任务微调的初始权重步骤,限制了它们在通用特征提取中的应用价值。本文通过提出一个稳健的评估协议来解决这一问题,该协议专门设计用于评估自监督特征在3D场景理解中的质量。该协议使用分层模型的多分辨率特征采样,以创建丰富的点级表示,这些表示能够捕捉模型的语义能力,因此适用于使用线性探测和最近邻方法进行评估。此外,我们引入了第一个在仅使用即插即用特征的线性探测设置中,与监督模型表现相似的自监督模型。特别是,我们的模型在3D中进行了原生训练,采用了一种新型的自监督方法——掩蔽场景建模目标,该目标以自底向上的方式重建掩蔽片段的深入特征,并专门针对分层3D模型。我们的实验不仅证明了我们的方法在性能上与监督模型竞争,还比现有自监督方法取得了明显的改进。模型和训练代码可以在我们的Github仓库(https://github.com/phermosilla/msm)中找到。
arXiv:2504.06683v1 交叉类型: cross
摘要: 超参数优化(HPO)对于强化学习(RL)取得优异性能至关重要,因为RL算法本身对超参数设置非常敏感。概率课程学习(PCL)是一种课程学习策略,旨在通过结构化代理的学习过程来提高RL性能,但有效的超参数调优仍然具有挑战性和计算上耗费资源。在本文中,我们对PCL算法在标准RL任务(包括点迷宫导航和直流电机控制)中的超参数相互作用及其对性能的影响进行了经验分析。利用结合了Optuna的树结构核估计器(TPE)的AlgOS框架,我们提出了改进超参数搜索空间的策略,以提高优化效率。此外,我们引入了一种基于SHAP的解释性方法,专门用于分析超参数的影响,提供了关于单个超参数及其相互作用如何影响RL性能的清晰见解。我们的工作贡献了实用的指导方针和解释性工具,显著提高了强化学习中超参数优化的有效性和计算可行性。
arXiv:2504.06669v1 安全类型: 横跨领域
摘要:随着自然语言处理(NLP)模型被越来越多的最终用户使用,NLP安全(NLPSec)领域的重要性日益增加:评估模型对抗恶意攻击的脆弱性,并开发全面的对抗措施。尽管NLP与网络信息安全交叉领域的研究有可能为所有人提供更安全的NLP,但不经意的疏忽可能会导致实际危害(例如,隐私泄露或恶意模型的扩散)。然而,在这一新兴领域中,NLP的研究伦理尚未面临许多与网络安全相关的长期困境,直到现在。因此,我们审查了NLPSec中的当代研究工作,并探讨了它们对网络安全伦理规范的参与情况。我们识别出了文献中的趋势,最终发现关于最小化危害和负责任披露等方面存在令人不安的空白。为了缓解这些关切,我们提供了具体的建议,以帮助NLP研究人员在这种空间中更加伦理地行进,将传统的网络安全与NLP伦理相结合,我们将其称为“白帽NLP”。本工作的目标是帮助培养一种意图化的伦理研究文化,适用于NLP安全领域的工作中。
arXiv:2504.06659v1 宣布类型: cross
摘要:尽管在大规模语言模型(LLMs)的偏好对齐(PA)方面取得了进展,主流方法如人类反馈强化学习(RLHF)仍然面临显著挑战。这些方法要求高质量的正面偏好示例数据集,获取这些数据集既昂贵又计算密集,因为训练不稳定,这限制了它们在低资源场景中的应用。LLM去学习技术提供了一种有前景的替代方案,通过直接去除负面示例的影响。然而,当前的研究主要集中在经验验证上,缺乏系统的定量分析。为填补这一空白,我们提出了一个框架来探讨偏好对齐与LLM去学习之间的关系。具体来说,我们引入了一种基于多层优化的方法来量化移除特定负面示例对偏好对齐性能的影响。我们的分析表明,并非所有负面示例在去学习后都对对齐改进贡献相同,且效果在示例之间存在显著差异。基于这一洞察,我们提出一个关键问题:如何以优化的方式选择和加权负面示例进行去学习,以最大化偏好对齐性能?为了回答这个问题,我们提出了一种名为Unlearning to Align(U2A)的框架,利用多层优化来高效选择和去学习示例,以实现最优的偏好对齐性能。我们通过大量实验验证了所提出的方法,结果证实了其有效性。
arXiv:2504.06658v1 交叉公告类型
摘要:受隐私保护法律和规定的影响,大型语言模型(LLMs)的去学习正在获得越来越多的关注。然而,当前的研究通常忽视了去学习过程的可解释性,特别是样本级别去学习难度。现有研究通常假设样本级别的去学习难度是均匀的。这种简化可能导致将去学习算法的性能归因于样本选择而不是算法的设计,从而可能引导大型语言模型去学习的发展方向出现偏差。因此,我们调查了大型语言模型去学习与样本特征之间的关系,重点是去学习难度。从神经科学中汲取灵感,我们提出了一种记忆移除难度($\mathrm{MRD}$)指标来量化样本级别的去学习难度。使用$\mathrm{MRD}$,我们分析了难以去学习与容易去学习样本的特征。此外,我们提出了一种基于$\mathrm{MRD}$的加权采样方法来优化现有的去学习算法,优先考虑容易遗忘的样本,从而提高去学习的效率和有效性。我们使用公开的基准和数据集验证了所提出的指标和方法,结果证实了其有效性。
arXiv:2504.06649v1 类型: cross
摘要: 图神经网络(GNNs)在学习图表示方面取得了显著的成功。然而,最近的研究表明,在半同质图任务中,GNNs 经常无法超过简单的MLPs,因为在这些任务中,连接的节点可能在特征或标签上有所不同,这挑战了同质性假设。现有解决这一问题的方法往往忽视了信息粒度的重要性,并且很少考虑远处节点之间的隐式关系。为了克服这些局限性,我们提出了一种名为Grainary和隐式图网络(GRAIN)的新颖GNN模型,专门设计用于处理半同质图。GRAIN通过在各种粒度水平上聚合多视图信息并结合来自远方、非相邻节点的隐式数据来增强节点嵌入。这种方法有效地结合了局部和全局信息,导致更平滑、更准确的节点表示。我们还引入了一种自适应图信息聚合器,能够高效结合多粒度和隐式数据,显著提高了节点表示的质量,如覆盖不同同质性和半同质性的13个数据集的实验所示。GRAIN一致地超越了12种最先进的模型,在同质图和半同质图上表现出色。
arXiv:2504.06643v1 宣告类型:交叉
摘要:无监督多变量时间序列异常检测(UMTSAD)在各个领域,包括金融、网络和传感器系统中起着关键作用。近年来,由于深度学习在一般序列任务中的出色表现,许多模型专门针对深度UMTSAD任务,并取得了显著的结果,特别是基于Transformer和自注意力机制的模型。然而,这些模型底层的序列异常关联假设通常局限于特定预定义的模式和场景,如集中或峰值异常模式。这些限制阻碍了它们对多样化异常情况的泛化能力,尤其是标签缺乏的情况下带来了巨大挑战。为了解决这些问题,我们提出了AMAD,该方法结合了UMTSAD场景下的自掩蔽注意力机制。AMAD引入了一种基于AutoMask机制的新结构和注意力Mixup模块,形成了一种简单而通用的异常关联表示框架。该框架通过最大值-最小值训练策略和局部-全局对比学习方法进一步增强。通过结合多尺度特征提取与自动相对关联建模,AMAD提供了一种对UMTSAD挑战的稳健且适应性强的解决方案。广泛的实验结果表明,所提出的模型在各种数据集上与SOTA基准相比取得了具有竞争力的表现。