arXiv 论文列表

**Koala-36M：一个用于提升细粒度条件与视频内容一致性的大规模视频数据集**

作者: Qiuheng Wang, Yukai Shi, Jiarong Ou, Rui Chen, Ke Lin, Jiahao Wang, Boyuan Jiang, Haotian Yang, Mingwu Zheng, Xin Tao, Fei Yang, Pengfei Wan, Di Zhang

随着视觉生成技术的不断发展，视频数据集的规模迅速扩大，而这些数据集的质量对于视频生成模型的性能至关重要。我们认为，时间分割、详细的字幕和视频质量过滤是决定数据集质量的三个关键因素。然而，现有的数据集在这些方面存在着各种局限性。为了解决这些挑战，我们引入了 Koala-36M，这是一个大规模、高质量的视频数据集，它具有精确的时间分割、详细的字幕和优异的视频质量。我们方法的核心在于改善细粒度条件与视频内容之间的一致性。具体来说，我们采用概率分布上的线性分类器来提高过渡检测的准确性，确保更好的时间一致性。然后，我们为分割后的视频提供结构化的字幕，平均长度为 200 个词，以提高文本-视频对齐。此外，我们开发了一个视频训练适用性评分 (VTSS)，该评分整合了多个子指标，使我们能够从原始语料库中过滤出高质量的视频。最后，我们将几个指标纳入生成模型的训练过程，进一步细化了细粒度条件。我们的实验结果证明了我们数据处理管道的有效性和所提出的 Koala-36M 数据集的质量。我们的数据集和代码将在 https://koala36m.github.io/ 上发布。

发布时间: 10/14/2024

查看原文

AdaShadow：非平稳移动环境下的响应式测试时模型自适应

作者: Cheng Fang, Sicong Liu, Zimu Zhou, Bin Guo, Jiaqi Tang, Ke Ma, Zhiwen Yu

针对移动应用（如自动驾驶和增强现实）在不断变化的环境中提供无缝用户体验，在设备上适应持续的、不可预测的领域变化至关重要。测试时自适应 (TTA) 通过在预测之前立即使用未标记的实时数据调整模型参数，成为一种很有前景的解决方案。然而，TTA 独特的正向-反向-再正向管道显着增加了与标准推理相比的延迟，从而削弱了时间敏感的移动应用程序的响应能力。本文提出了 AdaShadow，这是一种响应式测试时自适应框架，用于通过选择性更新适应性关键层来适应非平稳的移动数据分布和资源动态。虽然这种策略在通用的设备上训练中得到认可，但 TTA 的无监督和在线上下文在估计层重要性和延迟，以及调度最佳层更新计划方面提出了独特的挑战。AdaShadow 通过一种无反向传播评估器来快速识别关键层，一种基于单元的运行时预测器来考虑延迟估计中的资源动态，以及一种在线调度器来快速进行层更新计划，来应对这些挑战。此外，AdaShadow 还整合了一种内存 I/O 意识计算重用方案，以进一步减少再正向过程中的延迟。结果表明，AdaShadow 在持续变化的情况下实现了最佳的准确性-延迟平衡。在低内存和能量成本下，Adashadow 比最先进的 TTA 方法快 2 倍到 3.5 倍（毫秒级），同时保持了相当的准确性，并且比具有类似延迟的有效监督方法提高了 14.8% 到 25.4% 的准确性。

发布时间: 10/14/2024

查看原文

从饥饿中泛化：大型语言模型知识图谱学习中的普适性提示

作者: David D. Baek, Yuxiao Li, Max Tegmark

受可解释性和可靠性的驱动，我们研究了神经网络在图学习过程中如何表示知识。我们发现了普遍性的迹象，其中等效的表示在各种模型大小（从 $10^2$ 到 $10^9$ 个参数）和上下文中被学习（MLP 玩具模型、LLM 上下文学习和 LLM 训练）。我们表明，这些吸引子表示通过利用知识图关系的属性（例如对称性和元传递性）来优化对看不见的示例的泛化。我们通过展示 LLM 和更简单的神经网络可以被缝合来找到对这种普遍性的实验支持，即通过将一个模型的第一部分缝合到另一个模型的最后部分，仅通过仿射或近似仿射变换来进行。我们假设这种朝着简单性和泛化的动态是由“饥饿带来的智能”驱动的：其中过度拟合通过最小化对稀缺或与其他任务竞争的资源的使用来最小化。

发布时间: 10/14/2024

查看原文

基于自动语音识别 (ASR) 的 Wav2Vec2 用于自动语音障碍评估：见解与分析

作者: Tuan Nguyen, Corinne Fredouille, Alain Ghio, Mathieu Balaguer, Virginie Woisard

随着 SSL 和 ASR 技术的兴起，基于 Wav2Vec2 的 ASR 模型已被微调用于自动语音障碍质量评估任务，取得了令人印象深刻的结果，并为头颈癌语音环境设定了新的基准。这表明 Wav2Vec2 的 ASR 维度与评估维度密切相关。尽管该系统有效，但它仍然是一个黑盒子，模型 ASR 维度与临床评估之间联系的解释并不明确。本文首次分析了该基准模型用于语音质量评估，重点关注清晰度和严重程度任务。我们进行了逐层分析以识别关键层，并根据预训练数据比较了不同的 SSL 和 ASR Wav2Vec2 模型。此外，还使用了事后 XAI 方法，包括典型相关分析 (CCA) 和可视化技术，以跟踪模型演变并可视化嵌入，从而增强可解释性。

发布时间: 10/14/2024

查看原文

跨域推荐的联邦图学习

作者: Ziqi Yang, Zhaopeng Peng, Zihui Wang, Jianzhong Qi, Chaochao Chen, Weike Pan, Chenglu Wen, Cheng Wang, Xiaoliang Fan

跨域推荐 (CDR) 通过在源域和目标域之间进行知识迁移，为解决数据稀疏问题提供了一种很有前景的解决方案。然而，许多最近的 CDR 模型忽略了一些关键问题，例如隐私，以及负迁移的风险（这会对模型性能产生负面影响），尤其是在多域环境中。为了解决这些挑战，我们提出了 FedGCDR，这是一种新颖的联邦图学习框架，可以安全有效地利用来自多个源域的正面知识。首先，我们设计了一个正面知识迁移模块，确保跨域知识传输过程中的隐私。该模块采用基于差分隐私的知识提取，并结合特征映射机制，将来自联邦图注意力网络的源域嵌入转换为可靠的域知识。其次，我们设计了一个知识激活模块，用于过滤来自源域的潜在有害或冲突的知识，从而解决负迁移问题。该模块通过扩展目标域的图来生成可靠的域注意力，从而增强目标域的训练，并微调目标模型，以改进负知识过滤并获得更准确的预测。我们在亚马逊数据集的 16 个流行域上进行了广泛的实验，结果表明 FedGCDR 显著优于最先进的方法。

发布时间: 10/14/2024

查看原文

预测与急诊科拥挤相关的死亡率

作者: Jalmari Nevanlinna, Anna Eidst{\o}, Jari Yl\"a-Mattila, Teemu Koivistoinen, Niku Oksala, Juho Kanniainen, Ari Palom\"aki, Antti Roine

急诊科拥挤是一个全球性的公共卫生问题，与死亡率增加密切相关。预测未来的服务需求将使预防措施能够消除拥挤及其不利影响。我们急诊科的最新研究表明，占用率超过 90% 与 10 天死亡率增加相关。在本文中，我们旨在利用来自北欧大型急诊科的回顾性数据，使用 LightGBM 模型预测这些危机时期。我们提供了对整个急诊科以及各个运营部门的预测。我们证明了下午拥挤可以在上午 11 点预测，AUC 为 0.82（95% CI 0.78-0.86），在上午 8 点预测，AUC 高达 0.79（95% CI 0.75-0.83）。因此，我们表明，使用匿名行政数据预测与死亡率相关的拥挤是可行的。

发布时间: 10/14/2024

查看原文

Flex-MoE：基于灵活专家混合模型的任意模态组合建模

作者: Sukwon Yun, Inyoung Choi, Jie Peng, Yangfan Wu, Jingxuan Bao, Qiyiwen Zhang, Jiayi Xin, Qi Long, Tianlong Chen

多模态学习在各个领域越来越重要，它能够整合来自不同来源的数据，例如图像、文本和个性化记录，这些数据在医疗领域经常被观察到。然而，在某些模态缺失的情况下，许多现有的框架难以适应任意的模态组合，通常严重依赖单一模态或完整数据。这种对潜在模态组合的忽视限制了它们在现实世界中的适用性。为了解决这一挑战，我们提出了 Flex-MoE（灵活专家混合模型），这是一个新的框架，旨在灵活地整合任意模态组合，同时保持对缺失数据的鲁棒性。Flex-MoE 的核心思想是首先使用一个新的缺失模态库来处理缺失模态，该库将观察到的模态组合与相应的缺失模态组合整合在一起。然后，它采用了一种独特设计的稀疏 MoE 框架。具体来说，Flex-MoE 首先使用具有所有模态的样本训练专家，通过广义路由器 ($\mathcal{G}$-Router) 注入广义知识。然后，$\mathcal{S}$-Router 通过将最高门分配给与观察到的模态组合相对应的专家来专门处理更少的模态组合。我们在 ADNI 数据集上评估了 Flex-MoE，该数据集涵盖了阿尔茨海默病领域中的四种模态，以及 MIMIC-IV 数据集。结果证明了 Flex-MoE 的有效性，突出了它在各种缺失模态场景中对任意模态组合进行建模的能力。代码可在 https://github.com/UNITES-Lab/flex-moe 获取。

发布时间: 10/14/2024

查看原文

RAB$^2$-DEF：联邦学习中针对对抗攻击的动态可解释防御，以公平对待弱势客户

作者: Nuria Rodr\'iguez-Barroso, M. Victoria Luz\'on, Francisco Herrera

随着人工智能的普及，人们对人工智能的担忧和监管需求与日俱增，包括数据隐私等方面的要求。在这种背景下，联邦学习被提出作为一种解决不同数据来源场景下的数据隐私问题的解决方案，因为它是一种分布式学习方法。文献中提出的防御机制仅集中于防御对抗性攻击和性能，而忽略了其他重要特性，例如可解释性、对质量较差的客户端的公平性、攻击配置方面的动态性和对不同类型攻击的抵抗力方面的通用性。在这项工作中，我们提出了 RAB$^2$-DEF，一种针对拜占庭攻击和后门攻击的**鲁棒**防御，它具有**动态性**、**可解释性**和对质量较差的客户端的**公平性**，使用局部线性解释。我们在图像数据集上测试了 RAB$^2$-DEF 对拜占庭攻击和后门攻击的性能，并考虑了最先进的防御措施，结果表明 RAB$^2$-DEF 是一种有效的防御，同时它还提升了其他特性，从而朝着可信赖的人工智能迈进。

发布时间: 10/14/2024

查看原文

基于多模态语境的自我注意力机制在银行交易流中的应用

作者: Cyrile Delestre, Yoann Sola

银行交易流（BTF）是多种银行活动（如营销、信用风险或银行欺诈）中发现的顺序数据。它是一种由三种模态组成的多模态数据：日期、数值和文字。在本工作中，我们提出了一种将自注意力机制应用于BTF处理的方法。我们利用大量BTF以自监督的方式训练了两种通用模型：一种基于RNN的模型和一种基于Transformer的模型。我们提出了一种特定的分词方法，以便能够处理BTF。评估了这两个模型在两个银行下游任务上的性能：交易分类任务和信用风险任务。结果表明，微调这两个预训练模型能够在两个任务上都比现有技术方法表现更好。

发布时间: 10/14/2024

查看原文

LecPrompt：基于提示的 CodeBERT 逻辑错误纠正方法

作者: Zhenyu Xu, Victor S. Sheng

编程中的逻辑错误不会引发编译器警报，这使得它们难以检测。这些沉默的错误会破坏程序的功能或导致运行时问题。它们的修正需要对程序逻辑有深刻的理解，突出了自动检测和修复的重要性。在本文中，我们介绍了 LecPrompt 用于定位和修复逻辑错误，这是一种基于提示的方法，利用了 CodeBERT 的能力，CodeBERT 是一种基于 Transformer 的大型语言模型，在代码上进行了训练。首先，LecPrompt 利用大型语言模型来计算困惑度和对数概率指标，在词元和行级别上精确定位逻辑错误。通过统计分析，它识别出与大型语言模型识别的预期模式显著偏离的词元和行，并将它们标记为潜在的错误来源。其次，通过将逻辑错误修正挑战构建为一个掩码语言建模 (MLM) 任务，LecPrompt 利用 CodeBERT 自回归地修复已识别的错误词元。最后，软提示方法在低成本场景中提供了一种新颖的解决方案，确保模型能够针对逻辑错误修正任务的具体细微差别进行微调，而不会产生高昂的计算成本。为了评估 LecPrompt 的性能，我们创建了一种方法，将逻辑错误引入正确的代码，并将其应用于 QuixBugs 以生成 QuixBugs-LE 数据集。我们对 QuixBugs-LE 数据集（针对 Python 和 Java）的评估突出了我们方法 LecPrompt 的令人印象深刻的能力。对于 Python，LecPrompt 实现了 74.58% 的值得注意的 top-1 词元级修复准确率和 27.4% 的程序级修复准确率。在 Java 中，LecPrompt 提供了 69.23% 的 top-1 词元级修复准确率和 24.7% 的完整程序级修复准确率。

发布时间: 10/14/2024

查看原文