arXiv 论文列表

作者: Yi Zhu, Chirag Goel, Surya Koppisetti, Trang Tran, Ankur Kumar, Gaurav Bharaj

音频深度伪造检测对于对抗人工智能合成语音的恶意使用至关重要。在社区所做出的众多努力中，ASVspoof挑战赛已成为评估检测模型泛化性和鲁棒性的基准之一。本文介绍了Reality Defender对ASVspoof5挑战赛的提交方案，重点介绍了一种新颖的预训练策略，该策略在保持训练期间低计算成本的同时显著提高了泛化性。我们的系统SLIM使用自监督对比学习从各种类型的真实语音中学习风格-语言依赖嵌入。学习到的嵌入通过关注风格和语言方面之间的关系来帮助区分伪造语音和真实语音。我们在ASVspoof5、ASV2019和现实场景中评估了我们的系统。我们的提交方案在ASVspoof5 Track 1上获得了0.1499的minDCF和5.5%的EER，在ASV2019和现实场景中分别获得了7.4%和10.8%的EER。

发布时间: 10/11/2024

查看原文

实时荧光寿命成像的解锁：面向 FPGA 加速处理的多像素并行化

作者: Ismail Erbas, Aporva Amarnath, Vikas Pandey, Karthik Swaminathan, Naigang Wang, Xavier Intes

荧光寿命成像 (FLI) 是一种广泛应用于生物医学领域的测量荧光分子衰减时间的技术，可提供对代谢状态、蛋白质相互作用和配体-受体结合的见解。然而，其在快速生物过程（如动态活动监测）和临床应用（如引导手术）中的更广泛应用受到长时间数据采集时间和计算量大的数据处理的限制。虽然深度学习减少了后处理时间，但时间分辨数据采集仍然是实时应用的瓶颈。为了解决这个问题，我们提出了一种使用基于 FPGA 的硬件加速器实现实时 FLI 的方法。具体来说，我们在与时间分辨相机兼容的 FPGA 板上实现了基于 GRU 的序列到序列 (Seq2Seq) 模型。GRU 模型在资源受限的 FPGA 上平衡了精确处理，FPGA 的 DSP 单元和 BRAM 有限。FPGA 上有限的内存和计算资源需要有效地调度操作和内存分配，以部署用于低延迟应用的深度学习模型。我们通过使用 STOMP 来解决这些挑战，STOMP 是一种基于队列的离散事件模拟器，它可以自动优化硬件上的任务调度和内存管理。通过集成基于 GRU 的 Seq2Seq 模型及其通过知识蒸馏生成的压缩版本，称为 Seq2SeqLite，我们能够并行处理多个像素，与顺序处理相比，延迟降低。我们探索了不同级别的并行性，以实现性能和资源利用之间的最佳平衡。我们的结果表明，所提出的技术分别对 Seq2Seq 模型和 Seq2SeqLite 模型实现了 17.7 倍和 52.0 倍的加速，超过了手动调度。

发布时间: 10/11/2024

查看原文

MoE++：利用零计算专家加速专家混合方法

作者: Peng Jin, Bo Zhu, Li Yuan, Shuicheng Yan

在这项工作中，我们旨在同时提高混合专家 (MoE) 方法的有效性和效率。为此，我们提出了 MoE++，这是一个通用的异构 MoE 框架，它集成了前馈网络 (FFN) 和零计算专家。具体来说，我们引入了三种类型的零计算专家：零专家、复制专家和常数专家，分别对应于丢弃、跳过和替换操作。这种设计提供了三个主要优势：(i) 低计算开销：与普通 MoE 中对所有标记的统一混合机制不同，MoE++ 允许每个标记与动态数量的 FFN 相结合，由常数向量调整，甚至完全跳过 MoE 层。(ii) 高性能：通过允许简单的标记使用更少的 FFN 专家，MoE++ 允许更多专家专注于具有挑战性的标记，从而释放出比普通 MoE 更大的性能潜力。(iii) 部署友好：鉴于零计算专家具有可忽略的參數，我們可以在每個 GPU 上部署所有零計算专家，从而消除与分布在不同 GPU 上的 FFN 专家相关的重大通信开销和专家负载不平衡问题。此外，我们利用门控残差，使每个标记在选择合适的专家时能够考虑前一层所采取的路径。大量实验结果表明，与相同大小的普通 MoE 模型相比，MoE++ 实现了更好的性能，同时提供了 1.1-2.1 倍的专家前向吞吐量，这为开发先进且高效的 MoE 相关模型奠定了坚实的基础。

发布时间: 10/11/2024

查看原文

视觉-语言评估与训练的正向增强对比学习

作者: Sara Sarto, Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

尽管在字幕生成方面取得了重大进展，但现有的评估指标往往无法捕捉到字幕的全部质量或细致细节。这主要是因为它们依赖于非特定的由人编写的参考或嘈杂的预训练数据。然而，找到一个有效的指标不仅对字幕评估至关重要，对生成阶段也至关重要。指标确实可以在字幕模型的微调阶段发挥关键作用，最终提高生成的字幕的质量。在本文中，我们提出了 PAC-S++，一个可学习的指标，它利用 CLIP 模型，该模型在收集的网络数据和清理后的数据上进行预训练，并通过额外的生成的视觉和文本正样本对进行正则化。利用这种更强大和经过整理的预训练，我们还将 PAC-S++ 作为奖励应用于自批判序列训练 (SCST) 阶段，该阶段通常用于微调字幕模型。在不同图像和视频数据集上的大量实验突出了 PAC-S++ 相比于该任务的流行指标的有效性，包括其对物体幻觉的敏感性。此外，我们证明将 PAC-S++ 整合到字幕模型的微调阶段会导致语义更丰富的字幕，重复和语法错误更少。在域外基准上的评估进一步证明了我们的微调方法在增强模型能力方面的有效性。源代码和训练后的模型可在以下地址公开获取：https://github.com/aimagelab/pacscore。

发布时间: 10/11/2024

查看原文

DA-Code：面向大型语言模型的代理数据科学代码生成基准测试

作者: Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu

我们提出了DA-Code，一个专门为评估大型语言模型（LLM）在基于代理的数据科学任务中的能力而设计的代码生成基准。该基准包含三个核心要素：首先，DA-Code中的任务本质上具有挑战性，将它们与传统的代码生成任务区分开来，并要求在基础和规划方面具备高级编码技能。其次，DA-Code中的示例均基于真实且多样化的数据，涵盖了广泛的复杂数据整理和分析任务。第三，为了解决这些任务，模型必须利用复杂的数据科学编程语言，执行复杂的数据处理并得出答案。我们在一个可控且可执行的环境中构建了该基准，该环境与现实世界的数据分析场景一致，并且具有可扩展性。注释者精心设计了评估套件，以确保评估的准确性和稳健性。我们开发了DA-Agent基线。实验表明，尽管基线比其他现有框架表现更好，但使用当前最好的LLM仅实现了30.5%的准确率，仍有很大的提升空间。我们将在[https://da-code-bench.github.io](https://da-code-bench.github.io)发布我们的基准。

发布时间: 10/11/2024

查看原文

基于区块链和人工智能的清真食品溯源系统

作者: Abdulla Alourani, Shahnawaz Khan

全球对清真食品的需求正在迅速增长。清真食品的消费不仅限于穆斯林，也包括非穆斯林，因为清真食品的纯净性。然而，清真食品消费者面临着一些挑战。这些挑战让清真食品消费者对产品的清真认证产生怀疑。因此，需要一种解决方案来解决这些问题，并在消费者和生产者之间建立信任。区块链技术可以提供一个不可篡改的信息分布式账本。人工智能支持开发模式识别解决方案。本研究利用基于区块链和人工智能的系统，通过提供供应链所有操作和流程以及原材料采购的可追溯性，来确保清真食品的真实性。该系统已在当地一家超市进行了测试。开发的解决方案的测试结果和测试似乎有效，测试人员对该系统的实际应用表示兴趣。

发布时间: 10/11/2024

查看原文

道德图灵测试：评估人类-大型语言模型在道德决策中的对齐性

作者: Basile Garcia, Crystal Qian, Stefano Palminteri

随着大型语言模型 (LLMs) 越来越深入地融入社会，它们与人类道德的契合至关重要。为了更好地理解这种契合，我们构建了一个大型语料库，其中包含人类和 LLM 对各种道德情境的回应。我们发现人类和 LLM 的道德评估之间存在偏差：尽管 LLM 和人类都倾向于拒绝道德上复杂的功利主义困境，但 LLM 对个人框架更敏感。随后，我们进行了一项定量用户研究，参与者为 230 人 (N=230)，他们评估了这些回应，判断其是否为 AI 生成，并评估他们对回应的认同程度。人类评估者更倾向于 LLM 在道德情境中的评估，尽管观察到了一种系统性的反 AI 偏见：参与者不太可能同意他们认为是机器生成的判断。统计和 NLP 分析揭示了回应中细微的语言差异，影响着检测和认同。总体而言，我们的发现突出了人类-AI 在道德性决策中的感知复杂性。

发布时间: 10/11/2024

查看原文

面向跨领域可泛化的时间序列理解

作者: \"Ozg\"un Turgut, Philip M\"uller, Martin J. Menten, Daniel Rueckert

在自然语言处理和计算机视觉领域，对大型数据集进行自监督预训练解锁了跨领域和任务的基础模型能力。然而，这种潜力尚未在时间序列分析中实现，现有的方法忽略了时间序列特征的异质性。时间序列在许多领域都很普遍，包括医学、工程、自然科学和金融，但它们的特征在变量数量、变量间关系、时间动态和采样频率方面差异很大。这种跨领域的内在异质性阻碍了对大型时间序列语料库进行有效的预训练。为了解决这个问题，我们引入了 OTiS，这是一个用于一般时间序列分析的开放模型，专门设计用于处理多领域异质性。我们提出了一种新颖的预训练范式，包括一个具有可学习域特定签名的标记器，一种双重掩码策略来捕获时间因果关系，以及一种归一化互相关损失来建模长程依赖关系。我们的模型在包含 8 个不同领域、640,187 个样本和 110 亿个时间点的庞大语料库上进行了预训练，使其能够分析来自任何（未见过）领域的时序数据。在 15 个不同应用（包括分类、回归和预测）的综合实验中，OTiS 展示了其准确捕获域特定数据特征的能力，并证明了其与最先进基准的竞争力。我们的代码和预训练权重可在 https://github.com/oetu/otis 上公开获取。

发布时间: 10/11/2024

查看原文

基于一致性损失提升点云补全网络性能

作者: Kevin Tirta Wijaya, Christofel Rio Goenawan, Seung-Hyun Kong

点云补全网络通常通过最小化补全后的点云与真实点云之间的差异来进行训练。然而，当孤立地考察一个不完整的物体级点云时，它可能存在多个有效的补全解决方案。这种一对多映射问题会导致网络产生矛盾的监督信号，因为损失函数可能会对网络的相同输入-输出对产生不同的值。在许多情况下，这个问题可能会对网络优化过程产生负面影响。在这项工作中，我们提出使用一种新颖的补全一致性损失来增强传统的学习目标，以缓解一对多映射问题。具体来说，提出的 consistency loss 确保点云补全网络为来自同一源点云的不完整物体生成一致的补全解决方案。在多个成熟的数据集和基准上的实验结果表明，提出的补全一致性损失具有出色的能力，可以在不修改网络设计的情况下增强各种现有网络的补全性能。提出的 consistency loss 提高了点补全网络的性能，而不会影响推理速度，从而提高了点云补全的精度。值得注意的是，使用提出的 consistency loss 训练的最新点补全网络可以在具有挑战性的新 MVP 数据集上实现最先进的精度。使用提出的 consistency loss 对各种点补全模型进行实验的代码和结果将在以下地址提供：https://github.com/kaist-avelab/ConsistencyLoss。

发布时间: 10/11/2024

查看原文

主正交潜成分分析网络 (POLCA Net)

作者: Jose Antonio Martin H., Freddy Perozo, Manuel Lopez

表示学习是机器学习领域的关键领域，专注于开发方法，从原始数据中自动发现给定任务所需的表示或特征。与需要手动构建特征的传统特征工程不同，表示学习旨在学习对分类、预测和聚类等任务更有用、更相关的特征。我们介绍了主正交潜在成分分析网络 (POLCA Net)，这是一种模仿和扩展 PCA 和 LDA 功能到非线性域的方法。POLCA Net 将自动编码器框架与一组专门的损失函数相结合，以实现有效的降维、正交性、基于方差的特征排序、高保真重建，此外，当与分类标签一起使用时，它还可以生成适合线性分类器和低维可视化类分布的潜在表示。

发布时间: 10/11/2024

查看原文