arXiv 论文列表

作者: Chang Li, Ruoyu Wang, Lijuan Liu, Jun Du, Yixuan Sun, Zilu Guo, Zhenrong Zhang, Yuan Jiang, Jianqing Gao, Feng Ma

arXiv:2405.15863v3 宣告类型: 替换-交叉引用摘要：文本到音乐（TTM）生成，即将文本描述转换为音频，为多媒体创作开辟了创新途径。在此过程中实现高质量和多元化需要大量高质量的数据，而这些数据在现有数据集中往往十分稀缺。大多数开源数据集经常面临低质量波形和文本-音乐一致性低的问题，阻碍了音乐生成模型的发展。为了应对这些挑战，我们提出了一种新的质量感知训练框架，从大规模、质量不平衡的数据集中生成高质量、高音乐性的音乐。此外，通过利用音乐信号潜在空间的独特属性，我们改编并实现了掩码扩散变压器（MDT）模型以用于TTM任务，展示了其在质量控制和增强音乐性方面的潜力。此外，我们提出了一种三阶段描述精炼方法来解决低质量描述的问题。实验表明，在基准数据集（包括MusicCaps和Song-Describer Dataset）上，该方法在客观和主观指标上均表现出最先进的（SOTA）性能。可在 https://qa-mdt.github.io/ 获取演示音频样本，代码和预训练模型已开源 https://github.com/ivcylc/OpenMusic。

发布时间: 4/30/2025

查看原文

Q-Newton: 结合量子-经典调度以加快基于牛顿梯度下降的神经网络训练

作者: Pingzhi Li, Junyu Liu, Hanrui Wang, Tianlong Chen

arXiv:2405.00252v3 宣告类型: replace-cross 摘要：深度学习中的优化技术主要依赖于一阶梯度方法，例如SGD。然而，神经网络训练可以从二阶优化的快速收敛特性中显著受益。Newton的GD方法在这一领域中脱颖而出，通过使用逆海森矩阵对梯度进行重新缩放。然而，它的主要瓶颈之一是矩阵求逆，这在弱可扩展性的情况下需要$O(N^3)$的时间。矩阵求逆可以转化为求解一系列线性方程。鉴于利用量子叠加和纠缠原则的量子线性求解器算法（QLSAs）可以在$\text{polylog}(N)$的时间框架内运行，它们以指数级加速显示出有希望的方法。具体来说，最近的一种最先进QLSA的复杂度缩放为$O(d\cdot\kappa \log(N\cdot\kappa/\epsilon))$，取决于矩阵的大小$N$、条件数$\kappa$、误差容限$\epsilon$以及量子预言机的稀疏性$d$。然而，这也意味着它们的潜在指数优势可能受到某些特性（即$\kappa$和$d$）的影响。我们提出了一种混合量子-经典调度器Q-Newton，用于加速使用Newton的GD方法的神经网络训练。Q-Newton利用了一个简化调度模块，该模块协调量子和经典线性求解器之间的工作，通过估计并减少$\kappa$和为量子求解器构建$d$。我们的评估表明，Q-Newton有潜力显著减少与SGD等常用优化器相比的总训练时间。我们设想了一个量子机器门时间减少的未来场景，这可能通过阿秒钟物理学实现。我们的评估为量子计算的发展设定了一个雄心勃勃且充满希望的目标。

发布时间: 4/30/2025

查看原文

基于孪生自动编码器模型的学习可分表示的网络攻击检测方法

作者: Phai Vu Dinh, Quang Uy Nguyen, Thai Hoang Dinh, Diep N. Nguyen, Bao Son Pham, Eryk Dutkiewicz

arXiv:2403.15509v2 通知类型: 交叉替换摘要：针对网络攻击检测的表示学习（RL）方法面临着攻击数据的多样性和复杂性，导致不同类别的混合表示问题，尤其是在类别数量增加时更为突出。为了解决这个问题，本文提出了一种新的深度学习架构/模型，称为双自动编码器（TAE）。TAE首先将输入数据映射到潜在空间，然后确定性地将不同类别的数据样本进一步分开，以创建可分的数据表示，称为表示目标。TAE的解码器将输入数据投影到这些表示目标中。经过训练后，TAE的解码器提取数据表示。TAE的表示目标充当一种新的动态码字，指的是表示特定类别的向量。这个向量在每次训练周期后都会根据每个数据样本更新，而传统的固定码字不包含输入数据的信息。我们对多种网络空间安全数据集进行了广泛的实验，包括七个IoT僵尸网络数据集、两个网络安全IDS数据集、三个恶意软件数据集、一个云DDoS数据集以及随着类别数量增加的十个人工数据集。当类别数量增加时，TAE在攻击检测中的准确性和F分数提高了约2%，在IoT攻击检测中的平均准确率达到了96.1%。此外，TAE非常适合网络安全应用，并且可能适用于IoT系统，其模型大小约为1 MB，从提取一个数据样本的平均运行时间约为2.6E-07秒。

发布时间: 4/30/2025

查看原文

agency AI：语义解码的时代

作者: Maxime Peyrard, Martin Josifoski, Robert West

arXiv:2403.14562v2 宣告类型: replace-cross 摘要：近期研究表明，将大规模语言模型（LLM）、人类输入以及各种工具相结合来应对LLM固有局限性的想法具有巨大的潜力。我们提出了一种新的视角，称为语义解码，它将这些协作过程视为语义空间中的优化过程。具体而言，我们概念化LLM为语义处理器，它可以操作我们称为语义令牌（已知想法）的有意义信息。LLM与其他语义处理器，包括人类和工具（如搜索引擎或代码执行器）一起，处于一个大型的语义处理器池中。集体而言，语义处理器通过动态交换语义令牌以逐步构建高价值输出。我们将这些协调的语义处理器之间的交互，以及在语义空间中优化和搜索的过程称为语义解码算法。这一概念直接类比于已研究透彻的句法解码问题，句法解码涉及构建算法以最大限度地利用自回归语言模型来提取高价值的句法令牌序列。通过专注于语义层面，忽略句法细节，我们获得了一种新的视角来工程化AI系统，使我们能够设想具有更大复杂性和能力的系统。在本文中，我们形式化了从句法令牌到语义令牌的过渡以及句法解码和语义解码之间的类比。随后，我们探讨了通过语义解码算法在语义令牌空间中优化的可能性。最后，我们列出了从这一新视角引发的研究机会和问题。语义解码视角提供了一种强大的抽象，可以直接在有意义的概念空间中进行搜索和优化，将语义令牌作为新型计算的基本单元。

发布时间: 4/30/2025

查看原文

工业植物的智能状态监测：方法学和不确定性管理策略综述

作者: Maryam Ahang, Todd Charter, Oluwaseyi Ogunfowora, Maziyar Khadivi, Mostafa Abbasi, Homayoun Najjaran

arXiv:2401.10266v2 通告类型: 替换-交叉摘要：状态监测在现代工业系统的安全性和可靠性中发挥着重要作用。人工智能（AI）方法因其在工业应用中的日益重要性和能够有效识别故障的能力而受到学术界和工业界的关注。本文为工业场所的状态监测和故障检测与诊断方法提供了一个概述，重点关注开源基准测试田纳西州东曼过程（TEP）。在本次调查中，总结了工业场所状态监测、故障检测和诊断中最流行和最先进的深度学习（DL）和机器学习（ML）算法，并研究了每种算法的优势和缺点。还涵盖了诸如数据不平衡、无标签样本以及深度学习模型如何处理这些问题的挑战。最后，利用田纳西州东曼过程（TEP）比较了不同算法的准确性和规格。这项研究将对领域新手和专家都有益，因为它涵盖了状态监测领域的文献和最先进的方法，以及它们所面临的挑战和可能的解决方案。

发布时间: 4/30/2025

查看原文

3DCoMPaT$^{++}$: 一个改进的大规模3D视觉数据集，用于组合识别

作者: Habib Slim, Xiang Li, Yuchen Li, Mahmoud Ahmed, Mohamed Ayman, Ujjwal Upadhyay, Ahmed Abdelreheem, Arpit Prajapati, Suhail Pothigara, Peter Wonka, Mohamed Elhoseiny

arXiv:2310.18511v3 通知类型: 替换-交叉摘要: 在本文中，我们介绍了一种多模态2D/3D数据集3DCoMPaT$^{++}$，该数据集包含了超过1000万种精细标注的3D形状的1.6亿种渲染视图，这些形状经过精心样式化，并且还包括匹配的RGB点云、3D贴图网格、深度图和分割掩码。3DCoMPaT$^{++}$涵盖了41种形状类别、275种精细类别部分以及293种可组合应用到3D对象部分的精细材料类别。我们从四种等间距视角渲染了一百万种样式化形状的一部分，并且渲染了四种随机视角，总共产生了1.6亿种渲染图。部分在实例级别进行了分割，并且包含粗粒度和细粒度语义级别。我们引入了一个新的任务，称为Grounded CoMPaT Recognition (GCR)，用于集体识别和定位3D对象部分上材料的组合。此外，我们报告了在CVPR2023组织的数据挑战的结果，展示了获胜方法使用了在六维输入上训练的修改后的PointNet$^{++}$模型，并探讨了GCR增强的其他技术。我们希望我们的工作能够帮助未来在组合3D视觉研究中的进展。

发布时间: 4/30/2025

查看原文

确保大型语言模型可靠性的语义一致性

作者: Harsh Raj, Vipul Gupta, Domenic Rosati, Subhabrata Majumdar

arXiv:2308.09138v2 宣布类型: replace-cross 摘要：大规模语言模型（LLMs）在各种自然语言任务中表现出卓越的流畅性和能效。然而，最近的研究突显了它们对输入提示变化的高度敏感性。为了以安全可靠的方式部署LLMs，确保在提示具有相同意义或意图的表达时其输出一致性至关重要。虽然一些现有工作探讨了先进LLMs如何解决这一问题，但它们的评估仅限于评估单一或多个单词答案的词汇一致性，而忽视了生成文本序列的一致性。为了更全面地了解LLMs在开放文本生成场景中的一致性，我们引入了一种通用的语义一致性度量方法，并提出了多种该度量方法的版本以评估各种LLMs的性能。我们的提议在语义一致性方面显示了明显更高的一致性和更强的人类评估输出一致性的相关性，超过了基于词汇一致性的传统度量方法。最后，我们提出了一种新的提示策略，称为“选择要问”（Ask-to-Choose，A2C），以增强语义一致性。当根据TruthfulQA基准中的答案变化对封闭书本问答进行评估时，A2C可以将预训练和微调LLMs的准确性指标提高多达47%，并使指令调整模型的语义一致性指标提高多达7倍。

发布时间: 4/30/2025

查看原文

QMP: Q-switch 混合策略用于多任务行为共享

作者: Grace Zhang, Ayush Jain, Injune Hwang, Shao-Hua Sun, Joseph J. Lim

arXiv:2302.00671v3 公告类型: replace-cross 摘要: 多任务强化学习（MTRL）旨在通过同时学习多个任务来提高样本效率，而不是单独学习它们。传统方法通过在任务之间共享参数或重新标注的数据来实现这一点。在本文中，我们介绍了一种新的框架，用于跨任务共享行为策略，该框架可以与现有的MTRL方法结合使用。关键思想是通过采用其他任务策略的行为来改进每个任务的离策数据收集。在另一个任务中选择性地共享一个任务中获取的有益行为以收集训练数据，可以产生更高质量的轨迹，从而实现更高效的MTRL。因此，我们引入了一种简单且原理明确的框架，称为Q开关混合策略（QMP），该框架通过使用任务的Q函数来评估和选择可共享的行为，在不同的任务策略之间选择性地共享行为。我们从理论上分析了QMP如何提高底层RL算法的样本效率。我们的实验表明，QMP的行为策略共享在多种操作、运动和导航环境中提供了优于许多流行的MTRL算法的互补增益，并且优于其他行为共享方法。视频可在 https://qmp-mtrl.github.io 查看。

发布时间: 4/30/2025

查看原文

通过人类与AI基于偏好的合作解决问题

作者: Subhabrata Dutta, Timo Kaufmann, Goran Glava\v{s}, Ivan Habernal, Kristian Kersting, Frauke Kreuter, Mira Mezini, Iryna Gurevych, Eyke H\"ullermeier, Hinrich Schuetze

arXiv:2408.07461v4 公告类型：替换摘要: 尽管普遍认为通用人工智能（AGI）——甚至是超人类智能——即将到来，但在专家领域的复杂问题仍未得到解决。我们认为，这类问题需要人类与AI的合作，而当前生成式AI的技术尚无法发挥可靠伙伴的角色，这主要是由于其存在诸多不足，包括难以跟踪复杂解决方案的制品（例如，软件程序）、对灵活的人类偏好表达支持有限以及在交互式设置中无法适应人类偏好。为解决这些挑战，我们提出了HAICo2，一种新的人类与AI共同构建框架。我们对HAICo2进行了初步的形式化描述，并讨论了它所面临的困难的开放研究问题。

发布时间: 4/30/2025

查看原文

TOP-Former：多智能体变压器方法解决团队定向问题

作者: Daniel Fuertes, Carlos R. del-Blanco, Fernando Jaureguizar, Narciso Garc\'ia

arXiv:2311.18662v3 宣告类型: 替换摘要：车辆车队的路线规划是一项在快递配送、监视或交通运输等应用中重要的任务，通常被更大规模的智能交通系统（ITS）所整合。这个问题通常被形式化为车辆路线问题（VRP）的一种称为团队定向问题（TOP）的形式。现有的一些求解器主要依赖于线性规划（提供精确的解决方案，但计算时间会随着问题规模的增长而增长）或启发式方法（通常在较短时间内找到次优解决方案）。在本文中，我们介绍了一种名为TOP-Former的多智能体路线规划神经网络，它旨在高效且准确地解决团队定向问题。所提出的算法基于一个集中式的Transformer神经网络，能够学习将场景（建模为图）进行编码，并分析所有智能体的完整上下文，以提供快速、精确且协作的解决方案。与其他采用更局部视角的神经网络方法不同，TOP-Former在训练中被设计为理解和车队的全局情况，并生成最大化长期预期回报的解决方案。大量的实验表明，所介绍的系统在准确性和计算速度方面均优于大多数最新方法。

发布时间: 4/30/2025

查看原文