arXiv 论文列表

作者: Peiran Wang, Haohan Wang

本文介绍了 DistDD，一种新颖的联邦学习框架方法，通过直接在客户端设备上蒸馏数据来减少重复通信的需要。与需要在节点之间进行迭代模型更新的传统联邦学习不同，DistDD 促成了一次性蒸馏过程，该过程提取了一个全局蒸馏数据集，在维护联邦学习的隐私标准的同时，显著降低了通信成本。通过利用 DistDD 的蒸馏数据集，FL 的开发人员可以在 FL 上实现即时参数调整和神经架构搜索，而无需多次重复整个 FL 过程。我们提供了 DistDD 算法的详细收敛证明，强化了其在实际应用中的数学稳定性和可靠性。我们的实验表明 DistDD 的有效性和鲁棒性，特别是在非独立同分布和误标记数据场景中，展示了它在处理复杂现实世界数据挑战方面的潜力，与传统的联邦学习方法截然不同。我们还评估了 DistDD 在用例中的应用，并证明了其在 NAS 用例中的有效性和通信节省。

发布时间: 10/14/2024

查看原文

RePD：基于检索的提示分解过程防御越狱攻击

作者: Peiran Wang, Xiaogeng Liu, Chaowei Xiao

本研究提出了一种名为 RePD 的新颖攻击防御框架，该框架基于检索提示分解，旨在减轻大型语言模型 (LLM) 面临的越狱攻击风险。尽管经过严格的预训练和微调以确保道德一致性，LLM 仍然容易受到越狱攻击的利用。RePD 采用一次性学习模型，通过访问预先收集的越狱提示模板数据库来识别和分解嵌入在用户提示中的有害查询。此过程涉及将越狱提示分解整合到用户的原始查询中，形成一个一次性学习示例，以有效地教会 LLM 区分和分离恶意组件。因此，LLM 能够先中和任何潜在的有害元素，然后再以符合其道德准则的方式处理用户的提示。RePD 具有通用性，兼容各种作为代理的开源 LLM。通过使用有害和良性提示进行的全面实验，我们证明了我们提出的 RePD 在提高 LLM 对越狱攻击的抵御能力方面的有效性，同时不会影响其对典型用户请求的响应性能。

发布时间: 10/14/2024

查看原文

雷达ODE-MTL：一种基于偏心梯度对齐的多任务学习框架，用于鲁棒的雷达心电图重建

作者: Yuanyuan Zhang, Rui Yang, Yutao Yue, Eng Gee Lim

毫米波雷达有望以非侵入式的方式提供稳健准确的生命体征监测。然而，雷达信号在传播过程中可能会受到环境噪声或随机身体运动的干扰，从而破坏微妙的心脏活动并破坏生命体征的恢复。特别是，心电图 (ECG) 信号的恢复严重依赖于深度学习模型，并且对噪声敏感。因此，本工作创造性地将基于雷达的 ECG 恢复分解为三个独立的任务，并提出了一种多任务学习 (MTL) 框架，即 radarODE-MTL，以提高对持续和突发噪声的鲁棒性。此外，为了缓解优化各个任务的潜在冲突，提出了一种新颖的多任务优化策略，即偏心梯度对齐 (EGA)，以根据正交空间中的任务难度动态修剪特定于任务的梯度。所提出的具有 EGA 的 radarODE-MTL 在公共数据集上进行了评估，在准确性方面取得了显著的改进，并且性能在噪声环境下保持一致。实验结果表明，radarODE-MTL 可以从雷达信号中稳健地重建准确的 ECG 信号，并暗示其在现实生活中的应用前景。代码可在以下地址获取：http://github.com/ZYY0844/radarODE-MTL。

发布时间: 10/14/2024

查看原文

SOAK：用于估计数据子集中模式相似性的相同/其他/全部 K 折交叉验证

作者: Toby Dylan Hocking, Gabrielle Thibault, Cameron Scott Bodine, Paul Nelson Arellano, Alexander F Shenkin, Olivia Jasmine Lindly

在许多机器学习的实际应用中，我们想知道是否可以利用已收集的数据进行训练，并在某些方面（时间段、地理区域等）存在质的差异的新测试数据子集上获得准确的预测。另一个问题是，数据子集是否足够相似，以便在模型训练期间将子集组合起来。我们提出了 SOAK（相同/其他/所有 K 折交叉验证）方法，这是一种可以用于回答这两个问题的新方法。SOAK 系统地比较了在不同数据子集上训练的模型，然后用于对固定测试子集进行预测，以估计数据子集中可学习/可预测模式的相似性。我们展示了在六个新的真实数据集上使用 SOAK 的结果（具有地理/时间子集，以检查预测在新子集上是否准确）、3 个图像对数据集（子集是不同的图像类型，以检查我们在相似图像上获得更小的预测误差）以及 11 个具有预定义训练/测试分割的基准数据集（以检查预定义分割的相似性）。

发布时间: 10/14/2024

查看原文

梯度下降中优化ROC曲线下面积的有效线搜索方法

作者: Jadon Fowler, Toby Dylan Hocking

接收者操作特征 (ROC) 曲线在二元分类和变化点检测中非常有用，但难以用于学习，因为曲线下面积 (AUC) 是分段常数（梯度几乎处处为零）。最近，有人提出使用假阳性率和假阴性率的最小值下面积 (AUM) 作为 AUC 的可微替代方案。本文研究了 AUM/AUC 的分段线性/常数性质，并针对优化线性模型时梯度下降的每一步（线搜索），提出了新的高效路径跟踪算法，用于选择最佳学习率。值得注意的是，我们提出的线搜索算法具有与恒定步长梯度下降相同的对数线性渐近时间复杂度，但它计算了 AUM/AUC 作为步长函数的完整表示。在我们对二元分类问题的实证研究中，我们验证了我们提出的算法是快速且精确的；在变化点检测问题中，我们表明该算法与网格搜索一样准确，但速度更快。

发布时间: 10/14/2024

查看原文

冷冻电镜密度流模型：CryoFM

作者: Yi Zhou, Yilai Li, Jing Yuan, Quanquan Gu

冷冻电子显微镜 (cryo-EM) 是一种强大的结构生物学和药物发现技术，能够以高分辨率研究生物分子。结构生物学家使用 cryo-EM 取得了重大进展，已生成超过 38,626 个不同分辨率的蛋白质密度图1。然而，cryo-EM 数据处理算法尚未充分利用我们对生物分子密度图的知识，只有少数最近的模型是数据驱动的，但仅限于特定任务。在本研究中，我们介绍了 CryoFM，这是一种作为生成模型设计的基石模型，学习高质量密度图的分布，并有效地推广到下游任务。CryoFM 基于流匹配构建，经过训练可以准确地捕获生物分子密度图的先验分布。此外，我们引入了一种流后验采样方法，该方法利用 CRYOFM 作为 cryo-EM 和冷冻电子断层扫描 (cryo-ET) 中多个下游任务的灵活先验，无需微调，在大多数任务上取得了最先进的性能，证明了其作为这些领域更广泛应用的基石模型的潜力。

发布时间: 10/14/2024

查看原文

跨模态双向交互遥感图像分割模型

作者: Zhe Dong, Yuzhe Sun, Yanfeng Gu, Tianzhu Liu

给定一个自然语言表达式和一个遥感影像，遥感影像参照分割（RRSIS）的目标是生成由参照表达式识别的目标对象的像素级掩码。与自然场景相比，RRSIS 中的表达式通常涉及复杂的地理空间关系，目标对象在尺度上差异很大且缺乏视觉显著性，从而增加了实现精确分割的难度。为了解决上述挑战，提出了一种新颖的 RRSIS 框架，称为跨模态双向交互模型（CroBIM）。具体来说，设计了一个上下文感知提示调制（CAPM）模块，将空间位置关系和特定任务的知识整合到语言特征中，从而增强了捕获目标对象的能力。此外，还引入了一个语言引导特征聚合（LGFA）模块，将语言信息整合到多尺度视觉特征中，并结合注意力缺陷补偿机制来增强特征聚合。最后，设计了一个互交互解码器（MID），通过级联双向交叉注意力来增强跨模态特征对齐，从而实现精确的分割掩码预测。为了进一步促进 RRSIS 的研究，我们还构建了 RISBench，一个新的包含 52,472 个图像-语言-标签三元组的大规模基准数据集。在 RISBench 和另外两个流行数据集上的广泛基准测试表明，所提出的 CroBIM 优于现有的最先进（SOTA）方法。CroBIM 的源代码和 RISBench 数据集将在 https://github.com/HIT-SIRS/CroBIM 公开发布。

发布时间: 10/14/2024

查看原文

Synth-SONAR：基于双扩散模型和 GPT 提示的增强多样性和真实感的声呐图像合成

作者: Purushothaman Natarajan, Kamal Basha, Athira Nambiar

声呐图像合成对于推进水下探测、海洋生物学和国防等领域的应用至关重要。传统方法通常依赖于使用声呐传感器进行大量且昂贵的數據收集，从而危及数据质量和多样性。为了克服这些局限性，本研究提出了一种新的声呐图像合成框架Synth-SONAR，该框架利用扩散模型和GPT提示。Synth-SONAR的主要创新之处有三方面：首先，通过整合基于生成式AI的风格注入技术以及公开可用的真实/模拟数据，从而产生用于声呐研究的最大声呐数据集之一。其次，双文本条件声呐扩散模型层次结构合成具有增强质量和多样性的粗粒度和细粒度声呐图像。第三，高级（粗略）和低级（详细）基于文本的声呐生成方法利用视觉语言模型（VLM）和GPT提示中可用的高级语义信息。在推断过程中，该方法从文本提示生成多样化且逼真的声呐图像，弥合了文本描述和声呐图像生成之间的差距。据我们所知，这标志着GPT提示首次应用于声呐图像。Synth-SONAR在生成高质量合成声呐数据集方面取得了最先进的结果，显著提高了其多样性和真实性。

发布时间: 10/14/2024

查看原文

共轭语义池化增强预训练视觉语言模型的 OOD 检测能力

作者: Mengyuan Chen, Junyu Gao, Changsheng Xu

零样本分布外 (OOD) 检测的一种简单方法包括从一个庞大的语义池中选择潜在的 OOD 标签，然后利用预训练的视觉语言模型对分布内 (ID) 和 OOD 标签进行分类。本文理论认为，提高性能需要扩展语义池，同时提高所选 OOD 标签被 OOD 样本激活的预期概率，并确保这些 OOD 标签的激活之间相互依赖性低。一个自然的扩展方式是采用更大的词典；然而，不可避免地引入大量同义词和不常用词无法满足上述要求，表明可行的扩展方式不仅仅是从词典中选择词语。由于 OOD 检测旨在将输入图像正确分类为 ID/OOD 类别组，我们可以“编造”不是标准类名但对该过程有益的 OOD 标签候选。观察到原始语义池由未修改的特定类名组成，我们相应地构建了一个共轭语义池 (CSP)，它由修改后的超类名组成，每个超类名作为共享不同类别之间相似属性的样本的聚类中心。与我们已建立的理论一致，用 CSP 扩展 OOD 标签候选满足了要求，并在 FPR95 中比现有工作高出 7.89%。代码可在 https://github.com/MengyuanChen21/NeurIPS2024-CSP 获取。

发布时间: 10/14/2024

查看原文

生成对抗网络的文本到图像生成

作者: Mehrshad Momen-Tayefeh

从人类文本生成逼真的图像，是计算机视觉领域最具挑战性的问题之一。现有的文本到图像方法可以粗略地反映给定描述的含义。本文的主要目的是基于生成对抗网络（GAN）提出五种不同方法的简要比较，以从文本生成图像。此外，每个模型架构都以不同的分辨率合成图像。此外，获得的最佳和最差分辨率分别为 64*64 和 256*256。然而，我们检查并比较了一些指标，这些指标引入了每个模型的准确性。此外，通过进行这项研究，我们通过比较这些不同方法的基本指标，找到了解决此问题的最佳模型。

发布时间: 10/14/2024

查看原文