arXiv 论文列表

作者: Menghua Wu, Umesh Padia, Sean H. Murphy, Regina Barzilay, Tommi Jaakkola

理性地识别导致生物系统发生变化的变量，可以在疾病理解和细胞工程领域带来无数应用。从因果关系的角度来看，我们得到了两个由同一个因果模型生成的、具有相同因果模型的数据集，一个是观察数据集（对照），另一个是干预数据集（扰动）。目标是隔离被干预的目标变量子集（例如基因），即那些条件独立性发生变化的变量。了解因果图将限制搜索空间，使我们能够有效地识别这些变量。然而，当前在存在未知干预目标的情况下推断因果图的算法，在生物数据中数百或数千个变量的情况下扩展性很差，因为它们必须联合搜索图和一致干预目标的组合空间。在这项工作中，我们提出了一种受因果关系启发的预测扰动目标的方法，它将两个搜索步骤解耦。首先，我们使用一种摊销因果发现模型，从观察数据集和干预数据集中分别推断因果图。然后，我们在监督学习框架中学习将这些配对的图映射到被干预的变量集。这种方法在七个单细胞转录组学数据集上始终优于扰动建模的基线，每个数据集都有数千个测量变量。我们还证明了在各种易处理的合成数据集上，在预测干预目标方面，与六种因果发现算法相比，有显著的改进。

发布时间: 10/7/2024

查看原文

基于矢量量化的深度强化学习对抗扰动缓解方法

作者: Tung M. Luu, Thanh Nguyen, Tee Joshua Tian Jin, Sungwoon Kim, Chang D. Yoo

近年来研究表明，在训练中表现良好的强化学习 (RL) 智能体在部署时往往缺乏对抗性扰动的鲁棒性。这突出了在将智能体部署到现实世界之前构建鲁棒智能体的重要性。大多数先前的工作集中于开发基于鲁棒训练的程序来解决这个问题，包括增强深度神经网络组件本身的鲁棒性或对智能体进行对抗性训练以应对强攻击。在本工作中，我们研究了基于输入变换的 RL 防御机制。具体而言，我们提出使用矢量量化 (VQ) 的变体作为输入观测的变换，然后利用该变换来缩小测试期间对抗性攻击的空间，从而使变换后的观测受到攻击的影响较小。我们的方法计算效率高，并能与对抗性训练无缝集成，进一步增强 RL 智能体对抗对抗性攻击的鲁棒性。通过在多个环境中进行大量实验，我们证明将 VQ 作为输入变换可以有效地防御针对智能体观测的对抗性攻击。

发布时间: 10/7/2024

查看原文

声纹：你喜欢什么类型的音乐？

作者: Brandon James Carone, Pablo Ripoll\'es

SoundSignature 是一款音乐应用程序，它集成了一个定制的 OpenAI 助手来分析用户的 любимые песни。该系统结合了最先进的音乐信息检索 (MIR) Python 包，将提取的声学/音乐特征与助手对艺术家和乐队的广泛知识相结合。利用这种综合知识，SoundSignature 利用语义音频和来自新兴的声音物联网 (IoS) 生态系统的原理，将 MIR 与 AI 相结合，为用户提供个性化的音乐声学属性见解，类似于音乐偏好个性报告。用户随后可以与聊天机器人互动，以探索有关执行的声学分析及其与音乐品味的相关性的更深入的查询。这种交互性改变了应用程序，不仅作为有关熟悉和/或喜欢的歌曲的信息资源，而且还作为教育平台，使用户能够加深对音乐特征、音乐理论、信号处理中常用的声学属性以及音乐背后的艺术家的理解。除了通用可用性之外，该应用程序还包含几个完善的开源音乐家专用工具，例如和弦识别算法 (CREMA)、源分离算法 (DEMUCS) 和音频到 MIDI 转换器 (basic-pitch)。这些功能允许没有编码技能的用户通过与聊天机器人互动来访问高级的开源音乐处理算法（例如，你能给我这首歌的音轨吗？）。在本文中，我们重点介绍了该应用程序的创新功能和教育潜力，并展示了试点用户研究的结果，该研究评估了其有效性和可用性。

发布时间: 10/7/2024

查看原文

让区间边界传播重回巅峰

作者: Patryk Krukowski, Daniel Wilczak, Jacek Tabor, Anna Bielawska, Przemys{\l}aw Spurek

在现实生活中，例如医疗数据分析、自动驾驶和对抗性训练等场景中，我们对鲁棒深度网络感兴趣。当输入的微小扰动不会导致输出发生巨大变化（如类别变化等）时，网络就被认为是鲁棒的。这属于神经网络认证 (NNC) 的更广泛领域。NNC 中有两个关键问题引起了科学界的极大兴趣：如何计算给定预训练网络的鲁棒性，以及如何构建鲁棒网络。构建鲁棒网络的常用方法是区间界限传播 (IBP)。本文证明了由于 IBP 易受包裹效应的影响，它在第一种情况下并非最优。即使对于线性激活，IBP 也给出强烈次优的界限。因此，应使用不受包裹效应影响的策略来获得接近最优的界限。我们调整了两种专用于严格计算的经典方法——Dubleton 算术和仿射算术——以减轻神经网络中的包裹效应。这些技术对具有线性激活函数的网络产生精确的结果，从而抵御包裹效应。因此，我们实现了比 IBP 更接近最优水平的界限。

发布时间: 10/7/2024

查看原文

基于多色彩空间张量融合的增强型谐波密集连接混合Transformer网络架构用于慢性伤口分割

作者: Bill Cassidy, Christian Mcbride, Connah Kendrick, Neil D. Reeves, Joseph M. Pappachan, Cornelius J. Fernandez, Elias Chacko, Raphael Br\"ungel, Christoph M. Friedrich, Metib Alotaibi, Abdullah Abdulaziz AlWabel, Mohammad Alderwish, Kuan-Ying Lai, Moi Hoon Yap

慢性伤口及其相关并发症给全球诊所和医院带来了日益严重的负担。静脉、动脉、糖尿病和压迫性伤口在全球范围内变得越来越普遍。这些病症可能对患者造成高度致残的影响，肢体截肢和感染导致的死亡风险增加变得越来越普遍。因此，新的方法来协助临床医生进行慢性伤口护理对于维持高质量的护理标准至关重要。本文提出了一种改进的 HarDNet 分割架构，该架构在网络的初始层中集成了一个对比消除组件，以增强特征学习。我们还利用多色空间张量合并过程并调整卷积块的谐波形状以促进这些附加特征。我们使用来自浅肤色患者的伤口图像训练我们提出的模型，并在两个测试集（一个带有真实标签，另一个没有）上测试模型，这两个测试集仅包含深肤色病例。从临床伤口专家那里获得主观评分，并使用类内相关系数来确定评分者间可靠性。对于具有真实标签的深肤色测试集，我们展示了 Dice 相似性系数 (+0.1221) 和交并比 (+0.1274) 方面的改进。定性分析显示专家评分很高，与基线模型相比，提出的模型的改进超过了 3%。本文首次研究了使用仅在表现出浅肤色的伤口图像上训练的模型对深肤色进行慢性伤口分割。糖尿病在患者肤色较深的国家非常普遍，这突出了对这类病例的关注。此外，我们进行了迄今为止规模最大的慢性伤口分割定性研究。

发布时间: 10/7/2024

查看原文

LANTERN：通过放松的推测解码加速视觉自回归模型

作者: Doohyuk Jang, Sihwan Park, June Yong Yang, Yeonsung Jung, Jihun Yun, Souvik Kundu, Sung-Yub Kim, Eunho Yang

近年来，自回归 (AR) 模型在图像生成领域备受关注，其性能往往与扩散模型相媲美，甚至超越了后者。然而，AR 模型的一个主要局限性在于其顺序性，即一次处理一个 token，这使得生成速度比 GAN 或基于扩散的方法慢，而这些方法的效率更高。虽然推测解码已被证明可以有效地通过在一次前向传播中生成多个 token 来加速 LLM，但其在视觉 AR 模型中的应用仍未得到充分探索。在这项工作中，我们识别出该环境中的一个挑战，我们将其称为“token 选择歧义”，即视觉 AR 模型经常对 token 赋予均匀的低概率，从而阻碍了推测解码的性能。为了克服这一挑战，我们提出了一种称为 LANTERN 的松弛接受条件，该条件利用了潜在空间中 token 的可互换性。这种松弛通过允许更灵活地使用原本会被过早拒绝的候选 token，恢复了推测解码在视觉 AR 模型中的有效性。此外，通过引入一个总变异距离界限，我们确保这些速度提升是在不显著影响图像质量或语义一致性的情况下实现的。实验结果证明了我们的方法在提供比推测解码显著更快的速度方面的有效性。具体来说，与最先进的推测解码的朴素应用相比，LANTERN 将速度提升了 $\mathbf{1.75}\times$ 和 $\mathbf{1.76}\times$，分别与贪婪解码和随机采样相比，当应用于 LlamaGen，一个当代视觉 AR 模型时。

发布时间: 10/7/2024

查看原文

一张X光片胜过15个特征：用于可解释放射学报告生成的稀疏自动编码器

作者: Ahmed Abdulaal, Hugo Fry, Nina Monta\~na-Brown, Ayodeji Ijishakin, Jack Gao, Stephanie Hyland, Daniel C. Alexander, Daniel C. Castro

放射学服务正在经历前所未有的需求，导致对放射学报告生成自动化越来越感兴趣。现有的视觉语言模型（VLMs）存在幻觉、缺乏可解释性和需要昂贵的微调等问题。我们介绍了 SAE-Rad，它使用稀疏自动编码器（SAEs）将来自预训练视觉转换器的潜在表示分解为人类可解释的特征。我们的混合架构结合了最先进的 SAE 进展，在保持稀疏性的同时实现了准确的潜在重构。使用现成的语言模型，我们将真实报告提炼成每个 SAE 特征的放射学描述，然后将这些描述编译成每个图像的完整报告，从而无需为该任务微调大型模型。据我们所知，SAE-Rad 代表了首次将机制可解释性技术明确用于下游多模态推理任务的案例。在 MIMIC-CXR 数据集上，SAE-Rad 在与最先进的模型相比时，实现了具有竞争力的放射学特定指标，同时在训练时使用的计算资源显著减少。定性分析表明，SAE-Rad 学习了有意义的视觉概念，并生成了与专家解释高度一致的报告。我们的结果表明，SAEs 可以增强医疗保健中的多模态推理，为现有的 VLMs 提供更具可解释性的替代方案。

发布时间: 10/7/2024

查看原文

领先的用于乳腺癌分类的卷积神经网络架构的比较分析与集成增强

作者: Gary Murphy, Raghubir Singh

本研究提出了一种利用组织病理学图像进行乳腺癌分类的全新且准确的方法。该研究系统地比较了不同图像数据集上领先的卷积神经网络 (CNN) 模型，识别了它们的最佳超参数，并根据分类效率对它们进行排名。为了最大限度地提高我们探索的每个模型的分类精度，我们研究了数据增强、替代全连接层、模型训练超参数设置以及重新训练模型与使用预训练权重相比的优势。我们的方法包括几个原创概念，包括序列化生成的数据集以确保跨训练运行的一致数据条件并显著减少训练时间。结合结果的自动整理，这使得能够探索超过 2000 种训练排列——如此全面的比较尚属前所未有。我们的发现确立了实现独立 CNN 模型的出色分类精度所需的设置，并按模型效率对它们进行排名。基于这些结果，我们提出了将三个高性能独立 CNN 模型与不同的分类器堆叠在一起的集成架构，从而提高了分类精度。能够系统地运行如此多的模型排列以获得最佳结果，产生了非常高质量的结果，包括 BreakHis x40 和 BreakHis x200 的 99.75% 以及 Bach 数据集在分成训练集、验证集和测试集时的 95.18%。Bach 在线盲挑战使用这种方法获得了 89%。虽然本研究基于乳腺癌组织病理学图像数据集，但该方法同样适用于其他医学图像数据集。

发布时间: 10/7/2024

查看原文

影响导向的个性化联邦学习

作者: Yue Tan, Guodong Long, Jing Jiang, Chengqi Zhang

传统的联邦学习（FL）方法通常依赖于固定的权重参数聚合，忽略了彼此之间的相互影响。因此，它们在异构数据环境中的有效性有限。为了解决这个问题，我们提出了一种基于影响的联邦学习框架，即 FedC^2I，它定量地衡量了客户端级别和类别级别的影响，以实现每个客户端的自适应参数聚合。我们的核心思想是通过精心设计的 influence vector 和 influence matrix 显式地模拟 FL 系统中的客户端间影响。influence vector 量化了客户端级别的影响，使客户端能够选择性地从他人那里获取知识，并指导特征表示层的聚合。同时，influence matrix 以更细粒度的方式捕获类别级别的影响，以实现个性化的分类器聚合。我们在非 IID 设置下评估了 FedC^2I 相对于现有联邦学习方法的性能，结果表明我们的方法具有优越性。

发布时间: 10/7/2024

查看原文

跨语言文本分类中零样本自解释与人类推理的比较

作者: Stephanie Brandl, Oliver Eberle

指令微调的大语言模型能够通过生成自解释来为用户提供关于其输出的解释，而无需梯度计算或应用可能复杂的XAI方法。本文分析了这种能力是否能产生良好的解释，通过评估以输入理由形式的自解释的可信度（对人类而言）及其对模型的忠实度。为此，我们应用了两个文本分类任务：情感分类和强迫劳动检测。除了英语，我们还包括了丹麦语和意大利语的情感分类任务的翻译，并将自解释与所有样本的人工标注进行比较。为了进行直接比较，我们还计算了事后特征归因，即层级相关性传播（LRP），并将此流程应用于4个LLM（Llama2、Llama3、Mistral和Mixtral）。我们的结果表明，与LRP相比，自解释与人工标注更一致，同时保持了相当的忠实度。

发布时间: 10/7/2024

查看原文