arXiv:2502.03979v1 宣告类型:交叉
摘要:音乐情绪识别(MER)中最具挑战性的问题之一来自于情绪标签在不同数据集中情绪表示的异质性,包括类别标签(例如,快乐、悲伤)与维度标签(例如,正向-唤醒)。本文中,我们提出了一种统一的多任务学习框架,该框架结合了这两种类型的情绪标签,因此能够跨多个数据集进行训练。该框架使用了一种有效输入表示,结合了音乐特征(即,调式和和弦)和MERT嵌入。此外,知识蒸馏被用于将单个数据集中训练的教师模型的知识转移到学生模型,这增强了其在多个任务上的泛化能力。为了验证我们所提出的方法,我们在MTG-Jamendo、DEAM、PMEmo和EmoMusic等多个数据集上进行了广泛的实验。根据实验结果,音乐特征的加入、多任务学习和知识蒸馏显著提高了性能。特别是,在MTG-Jamendo数据集上,我们的模型优于MediaEval 2021竞赛表现最好的模型。我们的工作通过在单一统一框架中结合类别和维度情绪标签,为MER做出了重要贡献,从而实现了跨数据集的训练。
arXiv:2502.03966v1 交叉类型公告
摘要:在本文中,我们提出了一种合成数据生成框架,用于洪水灾害检测系统。为了实现高保真度和高质量,我们将多个现实世界特性转化为虚拟世界,并通过控制这些特性来模拟洪水情况。为了提高效率,我们利用了近年来在图像到3D以及城市合成方面的生成模型,轻松地组合洪水环境,从而避免了由于手工制作方式导致的数据偏差。基于我们的框架,我们构建了一个包含5个等级的洪水合成数据集,称为MultiFloodSynth,包含多种下游任务所需的丰富注释类型,如正常图、分割、3D边界框。在实验中,我们的数据集在与真实数据集相当的真实感情况下,展示了洪水灾害检测性能的增强。
arXiv:2502.03962v1 交叉公告类型
摘要:变分量子算法(VQAs)的表现很大程度上取决于所优化的参数化量子电路的选择。变分量子算法(VQAs)面临的最大挑战之一是设计适合特定问题和量子硬件的量子电路。本文提出了一种无梯度蒙特卡洛树搜索(MCTS)技术,以自动化量子电路的设计过程。该技术基于采样方案和渐进扩展技术引入了一种新的动作空间的表述,以动态地探索空间。在对随机量子电路领域进行测试时,MCTS在不同值的稳定器瑞尼熵下逼近未结构化电路。结果显示,MCTS能够在不同非稳定化程度的基准量子态之间进行逼近。接下来,我们的技术在包括量子化学和线性方程组求解等多种应用领域表现出良好的稳健性。与之前的MCTS研究相比,我们的技术在保持或提高结果的情况下,量子电路评估的数量减少了10到100倍。此外,生成的量子电路的CNOT门数量最多减少了三分之二。
arXiv:2502.03957v1 公告类型:交叉
摘要:在本文中,我们介绍了一种使用由检测器将输入图像分类为换脸的对抗生成样本来形成扰动掩码的方法,用于推断不同输入特征的重要性并生成可视化解释。我们基于自然进化策略生成这些样本,目的是翻转原始换脸检测器的决策,并将这些样本分类为真实。我们将这一想法应用于四种扰动基于的解释方法(LIME、SHAP、SOBOL 和 RISE),并通过最先进的换脸检测模型、基准数据集(FaceForensics++)和相应的解释评估框架来评估修改后的版本方法的性能。我们定量评估记录了所提出扰动方法在解释方法性能中的主要积极贡献。我们的定性分析显示了修改后的解释方法在更准确地标记篡改图像区域的能力,从而提供更有用的解释。
arXiv:2502.03954v1 类别: cross
摘要:以前基于多类分类、MASK 预测或原型匹配的方法在提取与已知模式相违背的事件关系方面证明具有挑战性。最近大规模语言模型的进步通过指令调优展示了令人印象深刻的性能。然而,在事件关系提取任务中,基于指令的方法面临几个挑战:存在大量的推理样本,事件之间的关系是非顺序的。为了应对这些挑战,我们提出了一种改进的基于指令的事件关系提取框架,名为MAQInstruct。首先,我们将任务从使用给定的事件-事件指令提取事件关系转变为使用给定的事件-关系指令选择事件,从而减少了所需推理样本的数量。然后,通过引入二分匹配损失,我们减少了基于指令的方法对生成序列的依赖。我们的实验结果表明,MAQInstruct 显著提高了多个LLM的事件关系提取性能。
arXiv:2502.03930v1 Announce Type: cross
摘要:近期有一些研究尝试通过结合扩散模型和自回归模型来生成连续语音表示而不使用离散的语音标记,但它们经常面临计算负载过重或结果不佳的挑战。在本文中,我们提出了Diffusion Transformer Autoregressive Modeling (DiTAR),这是一种基于块的自回归框架,结合了语言模型和扩散变换器。这种方法显著提高了自回归模型处理连续标记的效率,并减少了计算需求。DiTAR 采用分而治之的策略进行块生成,语言模型处理聚合的块嵌入,而扩散变换器随后根据语言模型的输出生成下一个块。在推理时,我们建议将温度定义为在反向扩散微分方程中引入噪声的时间点,以平衡多样性和确定性。此外,在广泛的缩放分析中,我们展示了DiTAR具有出色的可扩展性。在零样本语音生成中,DiTAR 在稳健性、说话人相似性和自然性方面达到了最先进的性能。
arXiv:2502.03918v1 类型: cross
摘要:本文提出了一种框架,用于定义具有自由度和目标状态变异性任务。机器人可以使用该框架观察任务的执行情况,并针对观察到的目标设定一个不同的目标;该目标仍然与任务描述兼容,但对机器人来说更容易执行。我们定义了环境状态模型和环境变化模型,并展示了如何从单个任务演示中交互式地创建这种变化,以及如何利用这种变化为将任何环境带入目标状态而制定执行计划。
arXiv:2502.03916v1 交叉类型: cross
摘要: 大型语言模型(LLMs)在文本生成中越来越有帮助,甚至可以根据用户用自然语言编写的提示编写编程语言中的代码。它们甚至被应用于根据自然语言生成多体系统的模拟模型。研究结果表明,LLMs 超越了简单复制现有代码示例的情况,其中一些LLMs已针对开源多体模拟代码进行了训练。然而,对于封闭源代码的模拟软件,这种情况不容期望,因为它们的想法和概念可能与其他公开可用的版本不同。在知识密集型任务如模型创建中,LLMs可能会出现幻觉,导致错误响应。对于未知的封闭源代码模拟软件尤其如此。同样的情况也适用于其他内部知识,这些知识被保留以保护知识产权或数据隐私。检索增强生成(RAG)方法可能为这些知识密集型任务提供解决方案。本文探讨了RAG在封闭源代码模拟软件中的应用,并进行了初步实验。在简要介绍了LLMs、RAG方法以及封闭源代码模拟软件所使用的模拟方法后,提供了几个示例来测试LLMs对模拟软件的知识以及使用两个RAG系统创建模拟模型的情况。这些示例显示出有前途的结果,表明将RAG系统应用于封闭源代码模拟软件的优势,有助于访问其知识。然而,它们也揭示了所应用信息中的缺口,并提出了进一步研究中的开放式问题。
arXiv:2502.03897v1 Announce Type: cross
摘要:作为一种自然的多模态内容,可听视频提供了一种沉浸式的感官体验。因此,音视频生成系统具有巨大的潜力。然而,现有的基于扩散的方法主要使用相对独立的模块来生成每种模态,缺乏对共享权重生成模块的探索。这种方法可能未能充分利用音频和视觉模态之间的内在相关性,导致生成质量不佳。为了应对这一挑战,我们提出了一种名为UniForm的统一扩散变换器,旨在增强跨模态一致性。通过拼接音视频信息,UniForm在统一的潜在空间内学习同时生成音频和视频,从而促进高质量且对齐良好的音视频对的创造。大量实验表明,我们的方法在联合音视频生成、音频引导的视频生成和视频引导的音频生成任务中表现出优越的性能。我们的演示可以在 https://uniform-t2av.github.io/ 查看。
arXiv:2502.03884v1 Announce Type: cross
摘要:大规模语言模型(LLMs)在各种任务中展示了非凡的成功,伴随着其参数量的持续增加。参数高效微调(PEFT)方法,如低秩适应(LoRA),通过显著减少可训练参数的数量来解决微调LLMs的挑战。近期的研究已经将LoRA与专家混合(MoE)架构结合,利用多个适配专家和门控机制进一步提高微调性能。然而,现有的方法主要集中在调整每一层适配专家的分配,以优化引入的可训练参数数量,而忽视了适配器秩这一关键因素。为此,我们提出了一种专家分配和秩配置的分层方案HILO,该方案在层间动态调整适配专家的数量和秩,以匹配模型层在适配器级别上的不同表示复杂性。在多个基准任务上的广泛实验表明,HILO在引入更少的可训练参数的情况下,在准确性上优于现有方法,提供了一种高效且实用的大规模语言模型微调解决方案。