arXiv 论文列表

作者: Xiang Li, Pin-Yu Chen, Wenqi Wei

近年来，基于生成式人工智能 (AI) 技术的文本转语音 (TTS) 和语音转换 (VC) 技术取得了显著进展，使得生成高质量、逼真的类人语音成为可能。这带来了重大挑战，即如何区分 AI 合成的语音和真实的人类语音，并可能引发潜在的滥用问题，例如冒充和欺诈、传播虚假信息、深度伪造和诈骗。然而，现有的 AI 合成音频检测技术尚未跟上步伐，并且在不同数据集上的泛化能力通常较差。本文介绍了 SONAR，一个合成 AI 音频检测框架和基准，旨在为区分最先进的 AI 合成音频内容提供全面的评估。SONAR 包含一个新颖的评估数据集，该数据集源自 9 个不同的音频合成平台，包括领先的 TTS 提供商和最先进的 TTS 模型。它是第一个统一基准测试 AI 音频检测的框架，涵盖了传统和基于基础模型的深度伪造检测系统。通过大量的实验，我们揭示了现有检测方法的泛化局限性，并证明了基础模型具有更强的泛化能力，这可以归因于它们模型的规模以及预训练数据的规模和质量。此外，我们探讨了少样本微调在提高泛化能力方面的有效性和效率，突出了其在定制应用中的潜力，例如针对特定实体或个人的个性化检测系统。代码和数据集可在 https://github.com/Jessegator/SONAR 获取。

发布时间: 10/8/2024

查看原文

基于 RLExplorer 的深度强化学习程序调试方法

作者: Rached Bouchoucha, Ahmed Haj Yahmed, Darshan Patil, Janarthanan Rajendran, Amin Nikanjam, Sarath Chandar, Foutse Khomh

深度强化学习 (DRL) 在机器人、电脑游戏和推荐系统等多个领域取得了成功。然而，与任何其他软件系统一样，基于 DRL 的软件系统容易出现故障，这些故障给调试和诊断带来了独特的挑战。这些故障通常会导致意外行为，而没有明确的故障和错误消息，这使得调试变得困难且耗时。因此，自动监控和诊断 DRL 系统对于减轻开发人员的负担至关重要。在本文中，我们提出了 RLExplorer，这是第一个针对基于 DRL 的软件系统的故障诊断方法。RLExplorer 自动监控训练轨迹并根据 DRL 学习动态的特性运行诊断例程以检测 DRL 特定故障的发生。然后，它将这些诊断的结果记录为警告，这些警告涵盖理论概念、推荐实践以及对已识别故障的潜在解决方案。我们进行了两组评估来评估 RLExplorer。我们对 Stack Overflow 中有缺陷的 DRL 样本的第一组评估表明，我们的方法可以在 83% 的情况下有效地诊断真实故障。我们对 RLExplorer 与 15 位 DRL 专家/开发人员的第二组评估表明，(1) RLExplorer 可以识别出比手动调试多 3.6 倍的缺陷，以及 (2) RLExplorer 可以轻松地集成到 DRL 应用程序中。

发布时间: 10/8/2024

查看原文

野外自监督异常检测：偏爱联合嵌入方法

作者: Daniel Otero, Rafael Mateus, Randall Balestriero

准确的异常检测对于基于视觉的基建检查至关重要，因为它有助于防止代价高昂的故障并提高安全性。自监督学习 (SSL) 通过从未标记数据中学习鲁棒表示提供了一种很有希望的方法。然而，它在异常检测中的应用仍未得到充分探索。本文通过对 SSL 方法在现实世界异常检测中的全面评估来解决这一差距，重点关注污水基础设施。使用 Sewer-ML 数据集，我们在不同的 SSL 框架（包括 BYOL、Barlow Twins、SimCLR、DINO 和 MAE）下评估轻量级模型，例如 ViT-Tiny 和 ResNet-18，并在不同的类别不平衡水平下进行评估。通过 250 次实验，我们严格评估了这些 SSL 方法的性能，以确保评估的稳健性和全面性。我们的研究结果突出了联合嵌入方法（如 SimCLR 和 Barlow Twins）优于基于重建的方法（如 MAE），后者在类别不平衡的情况下难以保持性能。此外，我们发现 SSL 模型的选择比主干架构更重要。此外，我们强调需要对 SSL 表示进行更好的无标签评估，因为当前的方法（如 RankMe）无法充分评估表示质量，使得在没有标签的情况下进行交叉验证不可行。尽管 SSL 与监督模型之间仍然存在性能差距，但这些发现突出了 SSL 增强异常检测的潜力，为进一步研究 SSL 应用的这一未开发领域铺平了道路。

发布时间: 10/8/2024

查看原文

语言模型的机制行为编辑

作者: Joykirat Singh, Subhabrata Dutta, Tanmoy Chakraborty

在网页规模文本上训练的大型语言模型（LLMs）获得了语言生成能力，可以解决各种各样的任务，特别是在使用上下文示例将任务知识细化到生成先验的情况下。然而，从噪声数据中学习到的虚假特征会阻碍其泛化能力。监督微调可以引入任务特异性，但会引入数据低效性。先前的研究表明：（i）噪声神经回路与 LLMs 中的泛化性神经回路共存，以及（ii）微调通常会增强（或抑制）现有能力，而不会引入新的能力。基于这些，我们提出了一种名为 TaRot 的新任务适应方法。TaRot 使用可学习的旋转矩阵干预神经回路，这些矩阵使用贝叶斯优化在标准少样本提示示例的数量级上用标记样本进行优化。使用不同大小的 LLMs 在多个分类和生成任务上的实验揭示了 TaRot 的有效性，在零样本和少样本性能方面均有所改进，平均改进（跨模型和任务）分别为 23.81% 和 11.15%。源代码可在 https://github.com/joykirat18/TaRot 获取。

发布时间: 10/8/2024

查看原文

生成式完形填空题的构建

作者: Yicheng Sun, Jie Wang

我们提出了一种名为 CQG 的生成式方法，利用神经网络和 WordNet 从给定文章中构建完形填空题，重点是生成多词干扰项。CQG 基于词义消歧、文本到文本转换、WordNet 的同义词集分类和词汇标签，为给定句子选择一个答案键，将其分割成一系列实例，使用 Transformer 和同级同义词集生成实例级干扰项候选 (IDC)。然后，它会删除不合适的 IDC，根据上下文嵌入相似性以及同义词集和词汇相关性对剩余的 IDC 进行排序，通过组合地用相应的排名前列的 IDC 替换实例来形成干扰项候选，并检查它们是否为合法的短语。最后，它根据与答案键的上下文语义相似性选择排名前列的干扰项候选。实验表明，该方法明显优于最先进的结果。人工评判也证实了生成的干扰项的高质量。

发布时间: 10/8/2024

查看原文

输入约束下内安全集最大化的帕累托控制屏障函数

作者: Xiaoyang Cao, Zhe Fu, Alexandre M. Bayen

本文介绍了帕累托控制屏障函数 (PCBF) 算法，用于在输入约束下最大化动态系统的内部安全集。传统的控制屏障函数 (CBFs) 通过将系统轨迹保持在安全集中来确保安全，但往往无法考虑现实的输入约束。为了解决这个问题，我们利用帕累托多任务学习框架来平衡安全性和安全集体积之间的竞争目标。PCBF 算法适用于高维系统，并且计算效率高。我们通过与倒立摆的 Hamilton-Jacobi 可达性比较以及对 12 维四旋翼系统的仿真来验证其有效性。结果表明，PCBF 一直优于现有方法，产生更大的安全集，并在输入约束下确保安全。

发布时间: 10/8/2024

查看原文

隐式到显式熵正则化：噪声标签下 ViT 微调的基准测试

作者: Maria Marrium, Arif Mahmood, Mohammed Bennamoun

对大规模数据集进行自动标注可能会引入噪声训练数据标签，这会对深度神经网络 (DNN) 的学习过程产生负面影响。因此，噪声标签学习 (NLL) 已成为卷积神经网络 (CNN) 的一个关键研究领域，尽管它在视觉Transformer (ViT) 中的探索还比较少。在本研究中，我们评估了 ViT 微调对噪声标签的脆弱性，并将其鲁棒性与 CNN 进行比较。我们还研究了为 CNN 开发的 NLL 方法是否对 ViT 同样有效。使用线性探测和 MLP-K 微调，我们使用三种常用的分类损失对两个 ViT 主干 (ViT-B/16 和 ViT-L/16) 进行了基准测试：交叉熵 (CE)、焦点损失 (FL) 和平均绝对误差 (MAE)，以及六种稳健的 NLL 方法：GCE、SCE、NLNL、APL、NCE+AGCE 和 ANL-CE。评估是在六个数据集上进行的，包括 MNIST、CIFAR-10/100、WebVision、Clothing1M 和 Food-101N。此外，我们探索了隐式预测熵最小化是否有助于 ViT 对噪声标签的鲁棒性，注意到大多数 NLL 方法中预测熵减少的总体趋势。基于此观察，我们检查了显式熵最小化是否可以增强 ViT 对噪声标签的弹性。我们的发现表明，将熵正则化纳入可以增强已建立的损失函数（如 CE 和 FL）的性能，以及六种研究的 NLL 方法在两个 ViT 主干上的鲁棒性。

发布时间: 10/8/2024

查看原文

多语言链接语料库中的实体插入：以维基百科为例

作者: Tom\'as Feith, Akhil Arora, Martin Gerlach, Debjit Paul, Robert West

链接是信息网络的基石，将孤立的知识片段转化为一个信息网络，其价值远超各部分之和。然而，向网络添加新链接并非易事：它不仅需要识别合适的源实体和目标实体对，还需要理解源内容，以便在文本中找到合适的链接插入位置。后一个问题尚未得到有效解决，尤其是在源文本中没有可作为锚点来插入指向目标实体的链接的文本片段的情况下。为了弥合这一差距，我们引入了信息网络中实体插入的任务并使其可操作。以维基百科为例，我们通过实证表明，这个问题对于编辑来说既有意义又具有挑战性。我们构建了一个包含 105 种语言的基准数据集，并开发了一个名为 LocEI（本地化实体插入）及其多语言变体 XLocEI 的实体插入框架。我们证明了 XLocEI 优于所有基线模型（包括最先进的基于提示的 LLM 排名，例如 GPT-4），并且它可以在没有训练过的语言上以零样本的方式应用，性能下降微乎其微。这些发现对于在实践中应用实体插入模型至关重要，例如，支持编辑在维基百科的 300 多种语言版本之间添加链接。

发布时间: 10/8/2024

查看原文

能够预测人类误解的反向解释可以提升人类的决策能力

作者: Zana Bu\c{c}inca, Siddharth Swaroop, Amanda E. Paluch, Finale Doshi-Velez, Krzysztof Z. Gajos

人们在依靠人工智能进行决策支持时，即使人工智能提供了信息丰富的解释，其决策能力也往往无法提高，甚至可能下降。我们认为，部分原因在于人们直觉地寻求对比性解释，以阐明人工智能决策与自身推理之间的差异，而大多数人工智能系统提供的却是“单方面”解释，这些解释只是为人工智能的决策辩护，却没有考虑用户的思考。为了在决策任务中实现人机知识的融合，我们引入了一个框架，用于生成以人为中心的对比性解释，解释人工智能的选择与预测的、可能的人类关于同一任务的选择之间的差异。一项大规模实验 (N = 628) 的结果表明，与单方面解释相比，对比性解释显着增强了用户独立决策能力，而不会牺牲决策准确性。在去技能化问题日益严重的背景下，我们的研究表明，将人类推理纳入人工智能设计可以促进人类技能发展。

发布时间: 10/8/2024

查看原文

基于大型语言模型的节点特征增强量子计算语义网络中的未来链接预测

作者: Gilchan Park, Paul Baity, Byung-Jun Yoon, Adolfy Hoisie

量子计算在物理学和计算机科学领域飞速发展，有望解决复杂问题并加速计算过程。量子芯片的开发需要理解各种实验条件之间的关联。建立在科学文献基础上的语义网络，通过表示概念之间的有意义关系，已被应用于各个领域，以识别知识差距和新颖的概念组合。基于神经网络的方法在这些网络中的链接预测方面已展现出潜力。本研究建议使用 LLMs 初始化节点特征，以增强图神经网络中链接预测任务的节点表示。LLMs 可以提供丰富的描述，减少了对手动特征创建的需求并降低了成本。我们的方法在量子计算语义网络上使用各种链接预测模型进行评估，与传统的节点嵌入技术相比，证明了其有效性。

发布时间: 10/8/2024

查看原文