arXiv 论文列表

作者: Dexuan Ding, Lei Wang, Liyun Zhu, Tom Gedeon, Piotr Koniusz

在计算机视觉任务中，特征通常来自不同的表示形式、领域和模态，例如文本、图像和视频。有效地融合这些特征对于获得稳健的性能至关重要，尤其是在存在强大的预训练模型（如视觉语言模型）的情况下。然而，常见的融合方法，例如串联、逐元素操作和非线性技术，往往无法捕捉结构关系、深度特征交互，并且会遭受效率低下或跨域特征错位的问题。在本文中，我们从高维特征空间转移到低维、可解释的图空间，通过构建编码不同级别特征关系的相似性图，例如剪辑、帧、补丁、词元等。为了捕捉更深层的交互作用，我们使用图幂扩展，并引入可学习的图融合算子来组合这些图幂，从而实现更有效的融合。我们的方法以关系为中心，在同质空间中操作，并且在数学上是合理的，类似于通过多线性多项式进行逐元素相似度得分聚合。我们在视频异常检测中展示了基于图的融合方法的有效性，显示了在多表示、多模态和多领域特征融合任务中强大的性能。

发布时间: 10/3/2024

查看原文

图变换的离散扩散薛定谔桥匹配

作者: Jun Hyeong Kim, Seonghwan Kim, Seokhyun Moon, Hyeongwoo Kim, Jeheon Woo, Woo Youn Kim

在生成式模型中，跨任意分布的传输是一个基本目标。最近提出的扩散桥模型提供了一种潜在的解决方案，但它们依赖于一个在实践中难以获得的联合分布。此外，基于连续域的公式限制了它们在离散域（如图）中的适用性。为了克服这些限制，我们提出了离散扩散薛定谔桥匹配（DDSBM），这是一种利用连续时间马尔可夫链在高维离散状态空间中解决 SB 问题的新框架。我们的方法将迭代马尔可夫拟合扩展到离散域，并且我们已经证明了它收敛到 SB。此外，我们针对图变换调整了我们的框架，并表明我们对节点和边独立修改的底层动力学的設計选择可以被解释为具有由图编辑距离描述的成本函数的最优传输的熵正则化版本。为了证明我们框架的有效性，我们将 DDSBM 应用于化学领域的分子优化。实验结果表明，DDSBM 有效地优化了分子的目标特性，并最小化了图变换，成功地保留了其他特征。

发布时间: 10/3/2024

查看原文

DLP-LoRA：面向大型语言模型的动态轻量级插件，实现高效的任务特定 LoRA 融合

作者: Yuxuan Zhang, Ruizhe Li

近年来，大型语言模型 (LLM) 在各种任务中取得了稳健的性能，但针对特定领域微调这些模型仍然需要大量的资源。参数高效微调 (PEFT) 方法，如低秩自适应 (LoRA)，通过微调一小部分参数来解决这一挑战。然而，现有的融合多个 LoRA 的方法缺乏基于上下文输入的动态融合，并且由于令牌级操作，通常会增加推理时间。我们提出 DLP-LoRA，一个动态轻量级插件，它使用仅 500 万个参数的迷你 MLP 模块，利用 top-p 采样策略在句子级别动态融合多个 LoRA。这种方法通过利用并行计算，将推理时间减少到单 LoRA 推理的两倍以下。对 26 项任务（包括多项选择题和问答）的评估表明，DLP-LoRA 在多项选择数据集上平均准确率达到 92.34%，在问答数据集上 BLEU 和 ROUGE 分数显着提高，在复合任务设置下优于不同的 LLM 主干。DLP-LoRA 有效地平衡了性能和效率，使其成为 LLM 中动态多任务自适应的实用解决方案。我们的代码可在 https://github.com/MeCuping/DLP-LoRA 获取。

发布时间: 10/3/2024

查看原文

一石激起千层浪：后验可解释性的统一视角

作者: Gabriel Kasmi, Amandine Brunetto, Thomas Fel, Jayneel Parekh

尽管深度神经网络在安全关键决策中应用日益广泛，但其固有的黑盒性质阻碍了透明度和可解释性。因此，可解释人工智能 (XAI) 方法应运而生，旨在理解模型的内部运作机制，尤其是归因方法，也称为显著性图。传统的归因方法通常识别输入中重要区域的位置——即“哪里”。然而，由于这些方法忽略了输入数据的固有结构，因此它们往往无法解释这些区域在结构成分（例如图像中的纹理或声音中的瞬变）方面代表什么。此外，现有方法通常针对单一数据模态，限制了它们的通用性。在本文中，我们建议利用小波域作为归因的稳健数学基础。我们的方法，即小波归因方法 (WAM)，将现有的基于梯度的特征归因扩展到小波域，为跨图像、音频和 3D 形状解释分类器提供了一个统一框架。实证评估表明，WAM 在图像、音频和 3D 可解释性的忠实度指标和模型方面与最先进方法相匹配或超越了最先进方法。最后，我们展示了我们的方法如何不仅解释“哪里”——输入的重要部分，还解释“什么”——结构成分方面的相关模式。

发布时间: 10/3/2024

查看原文

声波模拟：面向移动声源场景的定制化语音处理模拟平台

作者: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu

## 移动声源条件下语音分离和增强模型的系统评估通常需要包含多种场景的大量数据。然而，现实世界的数据集往往缺乏满足模型训练和评估需求的数据。虽然合成数据集提供了更大的数据量，但其声学模拟缺乏真实性。因此，现实世界和合成数据集都无法有效地满足实际需求。为了解决这些问题，我们引入了 SonicSim，这是一个旨在生成高度可定制的移动声源数据的合成工具包。SonicSim 基于具身 AI 模拟平台 Habitat-sim 开发，支持多级调整，包括场景级、麦克风级和源级，从而生成更多样化的合成数据。利用 SonicSim，我们构建了一个移动声源基准数据集 SonicSet，使用 Librispeech、Freesound Dataset 50k (FSD50K) 和 Free Music Archive (FMA)，以及来自 Matterport3D 的 90 个场景来评估语音分离和增强模型。此外，为了验证合成数据和现实世界数据之间的差异，我们从 SonicSet 验证集中随机选择了 5 小时的无混响原始数据，并录制了一个现实世界语音分离数据集，然后将其与相应的合成数据集进行比较。同样，我们利用现实世界语音增强数据集 RealMAN 来验证其他合成数据集与 SonicSet 数据集在语音增强方面的声学差距。结果表明，SonicSim 生成的合成数据可以有效地泛化到现实世界场景。演示和代码已在 https://cslikai.cn/SonicSim/ 公开提供。

发布时间: 10/3/2024

查看原文

层层剥离：神经新闻推荐器中编码器架构的深入评估

作者: Andreea Iana, Goran Glava\v{s}, Heiko Paulheim

编码器架构在神经网络新闻推荐系统中起着至关重要的作用，通过嵌入新闻和用户的语义和上下文信息。因此，研究重点一直放在增强新闻和用户编码器的表示能力，以提高推荐性能。尽管编码器架构对新闻和用户表示质量有重大影响，但现有的编码器设计分析仅关注整体下游推荐性能。这提供了一种片面的编码器相似性评估，忽略了它们行为的更细微差异，并可能导致次优模型选择。在这项工作中，我们对神经网络新闻推荐系统中的编码器架构进行了全面分析。我们系统地评估了最突出的新闻和用户编码器架构，重点关注它们的 (i) 表示相似性，使用中心核对齐度量，(ii) 生成的推荐列表的重叠，使用 Jaccard 相似度量化，以及 (iii) 整体推荐性能。我们的分析表明，某些编码技术的复杂性在经验上往往是无根据的，突出了更简单、更高效架构的潜力。通过隔离各个组件的影响，我们为研究人员和从业人员提供了宝贵的见解，让他们能够做出更明智的编码器选择决策，并避免在新闻推荐系统设计中出现不必要的复杂性。

发布时间: 10/3/2024

查看原文

TIGER：用于高效语音分离的时频交织增益提取和重构

作者: Mohan Xu, Kai Li, Guo Chen, Xiaolin Hu

近年来，语音分离研究主要集中在提高模型性能方面。然而，对于低延迟语音处理系统，高效率同样重要。因此，我们提出了一种参数和计算成本显著降低的语音分离模型：时频交织增益提取和重建网络（TIGER）。TIGER 利用先验知识划分频带并压缩频域信息。我们采用多尺度选择性注意力模块来提取上下文特征，同时引入全频帧注意力模块来捕获时间和频率上下文信息。此外，为了更真实地评估语音分离模型在复杂声学环境中的性能，我们引入了一个名为 EchoSet 的数据集。该数据集包含噪声和更真实的混响（例如，考虑物体遮挡和材料特性），以及来自两个说话者的语音以随机比例重叠。实验结果表明，在 EchoSet 上训练的模型比在其他数据集上训练的模型具有更好的泛化能力，可以更好地处理在物理世界中收集的数据，这验证了 EchoSet 的实际价值。在 EchoSet 和真实世界数据上，TIGER 将参数数量减少了 94.3%，将 MACs 减少了 95.3%，同时实现了超越最先进（SOTA）模型 TF-GridNet 的性能。这是第一个参数少于 100 万个的语音分离模型，其性能与 SOTA 模型相当。

发布时间: 10/3/2024

查看原文

面向中文歌词生成的代理驱动大型语言模型

作者: Hong-Hsiang Liu, Yi-Wen Liu

生成式大型语言模型在各种任务中仅通过提示就表现出令人印象深刻的上下文学习能力。以往的旋律到歌词的研究受限于稀缺的高质量对齐数据和不清晰的创造力标准。大多数努力集中在一般主题或情感上，鉴于当前语言模型的能力，这些主题或情感价值较低。在像普通话这样的音调语言中，音调轮廓受旋律和音调的共同影响，导致歌词-旋律匹配的差异。我们的研究通过 Mpop600 数据集验证，证实词作者和旋律作者在创作过程中会考虑这种匹配。在本研究中，我们开发了一个多智能体系统，将旋律到歌词的任务分解成子任务，每个智能体控制韵律、音节数、歌词-旋律对齐和一致性。通过基于扩散的歌唱语音合成器进行听力测试，以评估不同智能体组生成的歌词质量。

发布时间: 10/3/2024

查看原文

语言模型生命周期中的组合性几何特征

作者: Jin Hwa Lee, Thomas Jiralerspong, Lei Yu, Yoshua Bengio, Emily Cheng

组合性，即表达式的含义由其组成部分的含义和语法规则构建而成的概念，使人类语言具有无限的生产力。首次，人工语言模型（LM）能够在多个组合泛化任务中与人类的表现相匹配。然而，关于这些能力背后的表征机制，还有很多需要了解。我们采用了一种高层次的几何方法来解决这个问题，将数据集中的组合性程度与其在 LM 下的表征的内在维数联系起来，内在维数是特征复杂性的度量。我们发现，不仅数据集组合性程度反映在表征的内在维数中，而且组合性和几何复杂性之间的关系是由于在训练过程中学习到的语言特征造成的。最后，我们的分析揭示了线性维数和非线性维数之间的鲜明对比，表明它们分别编码了语言组合的形式和语义方面。

发布时间: 10/3/2024

查看原文

Fair4Free：利用数据自由蒸馏生成高保真公平合成样本

作者: Md Fahim Sikder, Daniel de Leng, Fredrik Heintz

本研究提出了 Fair4Free，一种新颖的生成模型，它使用潜在空间中的无数据蒸馏来生成合成公平数据。Fair4Free 可以在数据私密或不可访问的情况下工作。在我们的方法中，我们首先训练一个教师模型来创建公平的表示，然后将知识蒸馏到一个学生模型（使用更小的架构）。学生模型的蒸馏过程是无数据的，即学生模型在蒸馏过程中无法访问训练数据集。蒸馏完成后，我们使用蒸馏后的模型生成公平的合成样本。我们广泛的实验表明，我们的合成样本在所有三个标准（公平性、效用和合成质量）上都优于最先进的模型，在公平性方面提高了 5%，效用方面提高了 8%，合成质量方面提高了 12%，适用于表格数据集和图像数据集。

发布时间: 10/3/2024

查看原文