arXiv 论文列表

确定性与随机性动态分类器：以噪声对抗随机对抗攻击

arXiv:2409.13470v1 公告类型: 交叉摘要: 连续变量发放率(CVFR)模型在神经科学中广泛用于描述兴奋性生物神经元的复杂动力学，现被训练和测试为一个真正的动态辅助分类器。为此，模型通过其谱分解，被提供了一组自洽嵌入节点间耦合矩阵的植入吸引子。学习分类相当于雕刻施加平衡的吸引盆，引导不同项目朝向相应的目标，反映各自所属的类别。还研究了CVFR模型的随机变体，发现其对对抗性随机攻击具有鲁棒性，这些攻击会破坏待分类的项目。这一显著发现是当噪声和动态属性相互共振时产生的众多惊人效应之一。

发布时间: 9/23/2024

查看原文

联邦学习环境下基于孤立森林的全球异常检测

我们提出了一种在联邦学习环境中检测全局异常值的新策略，特别针对跨部门场景。我们的方法涉及使用两个服务器，并将客户端的掩码本地数据传输到其中一个服务器。数据的掩码处理防止了敏感信息的泄露，同时仍然允许识别异常值。此外，为了进一步保护隐私，实施了一种排列机制，使得服务器不知道任何掩码数据点属于哪个客户端。服务器对掩码数据进行异常值检测，使用Isolation Forest或其扩展版本，然后将异常值信息反馈给客户端，使它们能够在开始任何后续的联邦模型训练之前识别并移除本地数据集中的异常值。这种方法在集中执行Isolation Forest算法于原始数据上时，提供了可比的结果。

发布时间: 9/23/2024

查看原文

差分隐私多模态拉普拉斯丢弃（DP-MLD）用于脑电图表征学习

最近，多模态脑电图（EEG）学习在疾病检测中显示出巨大的潜力。与此同时，由于法律和伦理问题，确保临床研究中的隐私变得越来越重要。差分隐私（DP）因其清晰的解释和易于实施而被广泛采用作为隐私保护方案。尽管在DP下提出了许多方法，但由于所考虑的模型和信号数据的复杂性，尚未对多模态EEG数据进行广泛研究。本文提出了一种新颖的差分隐私多模态拉普拉斯丢弃（DP-MLD）方案，用于多模态EEG学习。我们的方法提出了一种新颖的多模态代表性学习模型，通过语言模型将EEG数据处理为文本，通过视觉变换器将其他模态数据处理为图像，并结合精心设计的交叉注意力机制，有效提取和整合跨模态特征。为了实现DP，我们设计了一种新颖的自适应特征级拉普拉斯丢弃方案，其中在给定的隐私预算内动态优化随机分配和性能。在帕金森病（PD）中冻结步态（FoG）的开源多模态数据集上的实验中，我们提出的方法在分类准确性上显示出约4%的改进，并在DP下的多模态EEG学习中达到了最先进的性能。

发布时间: 9/23/2024

查看原文

CVT-Occ：用于三维占据预测的成本体积时间融合

基于视觉的三维占据预测在深度估计方面面临着单目视觉的固有限制。本文介绍了CVT-Occ，一种利用时间融合通过时间上体素的几何对应关系来提高三维占据预测准确性的新方法。通过沿每个体素的视线方向采样点，并整合这些点从历史帧中的特征，我们构建了一个成本体积特征图，用于优化当前体积特征以提高预测结果。我们的方法利用历史观测中的视差线索，并采用数据驱动的方法来学习成本体积。通过在Occ3D-Waymo数据集上的严格实验，我们验证了CVT-Occ的有效性，它在三维占据预测中优于最先进的方法，且计算成本增加最小。代码已在\url{https://github.com/Tsinghua-MARS-Lab/CVT-Occ}发布。

发布时间: 9/23/2024

查看原文

基于深度学习的CT/PET影像肿瘤分割中的正弦波归一化方法

本报告介绍了一种用于CT/PET扫描中自动化肿瘤分割的归一化模块，该模块是为autoPET III挑战赛开发的。其核心创新在于引入了SineNormal，该方法通过对PET数据应用周期性正弦变换来增强病灶检测。通过突出显示强度变化并在PET高亮区域生成同心环模式，该模型旨在提高分割精度，特别是在多示踪剂PET数据集等具有挑战性的情况下。本项目的代码可在GitHub上获取（https://github.com/BBQtime/Sine-Wave-Normalization-for-Deep-Learning-Based-Tumor-Segmentation-in-CT-PET）。

发布时间: 9/23/2024

查看原文

多模态深度学习相机-激光雷达标定模型的验证与探索

arXiv:2409.13402v1 公告类型: 交叉摘要: 本文介绍了一项创新研究，探讨、评估和实施用于多模态传感器系统校准的深度学习架构。其背后的重点是利用传感器融合技术，实现3D LiDAR与2D相机传感器之间的动态实时对齐。传统的静态校准方法繁琐且耗时，因此我们提出利用传统神经网络（CNN）结合几何信息学习来解决这一问题。我们借鉴了RegNet、CalibNet和LCCNet等外部LiDAR-相机校准工具的基本原理，通过探索在线可用的开源模型，并将我们的结果与相应的研究论文进行比较。提取这些视觉和可测量输出的要求涉及调整源代码、微调、训练、验证和测试每个框架以进行公平比较。这种方法旨在研究这些高级网络中哪一个能产生最准确和一致的预测。通过一系列实验，我们揭示了它们的一些不足之处和潜在的改进领域。我们发现，在所有验证的模型中，LCCNet表现最佳。

发布时间: 9/23/2024

查看原文

语音合成中鲁棒协同水印的音频编解码器增强

arXiv:2409.13382v1 公告类型: 交叉摘要: 随着当前合成方法在接近人类语音且广泛可及的情况下，自动检测合成语音变得越来越重要。音频水印和其他主动披露方法正在吸引研究活动，因为它们可以补充基于被动检测的传统深度伪造防御。在主动和被动检测中，鲁棒性是主要关注点。传统的音频水印特别容易受到音频编解码器应用的去除攻击。大多数生成的语音和音频内容在发布到野外时都会通过音频编解码器作为分发方法。我们最近提出了协作水印作为一种方法，使生成的语音在噪声但可微分的传输通道上更容易被检测到。本文扩展了通道增强以与非可微分的传统音频编解码器和神经音频编解码器一起工作，并评估了各种配置下的编解码器比特率的可转移性和影响。结果表明，协作水印可以通过使用波形域直通估计器进行梯度近似，可靠地通过黑箱音频编解码器进行增强。此外，结果显示，使用神经音频编解码器的通道增强可以很好地转移到传统编解码器上。听力测试表明，协作水印在高比特率编解码器或DAC在8kbps时几乎不会引起感知降级。

发布时间: 9/23/2024

查看原文

RingMo-Aerial：一种基于仿射变换对比学习的航空遥感基础模型

arXiv:2409.13366v1 公告类型: 交叉摘要: 空中遥感（ARS）视觉任务由于其独特的视角特性而面临重大挑战。现有研究主要集中在特定任务的算法上，这些算法在广泛的ARS视觉应用中的适用性有限。本文提出了RingMo-Aerial模型，旨在填补ARS视觉领域基础模型研究的空白。通过引入频率增强的多头自注意力（FE-MSA）机制和基于仿射变换的对比学习预训练方法，该模型对小目标的检测能力得到增强，并优化了ARS特有的倾斜视角。此外，提出了ARS-Adapter，一种高效的参数微调方法，以提高模型在各种ARS视觉任务中的适应性和有效性。实验结果表明，RingMo-Aerial在多个下游任务中达到了最先进的性能。这表明RingMo-Aerial在提升ARS视觉任务性能方面的实用性和有效性。

发布时间: 9/23/2024

查看原文

FPBoost：生存分析的全参数梯度提升方法

生存分析是分析时间到事件数据并提取有价值的临床见解的关键工具。近年来，利用神经网络和决策树的众多机器学习技术已为此任务开发。在这些技术中，最成功的方法通常依赖于对建模风险函数形状的特定假设。这些假设包括比例风险、加速失效时间或预定义时间点上的离散估计。在本研究中，我们提出了一种基于个体完全参数化风险贡献加权和的新型生存模型设计范式。我们基于著名的集成技术，通过应用加性风险函数，为该领域带来了新的贡献，超越了基于生存或累积风险函数的方法。此外，我们提出的模型，称为FPBoost，是首个通过梯度提升直接优化生存似然的算法。我们在一系列多样化的数据集上评估了我们的方法，并与各种最先进的模型进行了比较。结果表明，FPBoost在一致性和校准指标上改善了风险估计。

发布时间: 9/23/2024

查看原文

情感女王：评估大型语言模型同理心的基准

arXiv:2409.13359v1 公告类型: 交叉摘要: 大型语言模型(LLMs)中的情感智能在自然语言处理中具有重要意义。然而,以往的研究主要集中在基本的情感分析任务上,如情感识别,这不足以评估LLMs的整体情感智能。因此,本文提出了一种名为EmotionQueen的新框架,用于评估LLMs的情感智能。该框架包括四个独特的任务:关键事件识别、混合事件识别、隐性情感识别和意图识别。要求LLMs识别重要事件或隐性情感并生成同理心回应。我们还设计了两个指标来评估LLMs在情感相关陈述中的识别和回应能力。实验得出了关于LLMs在情感智能方面的能力和局限性的重要结论。

发布时间: 9/23/2024

查看原文