arXiv 论文列表

轴向注意力变换网络：乳腺癌检测的新前沿

arXiv:2409.12347v1 公告类型: 交叉摘要: 本文深入探讨了医学图像分割领域的挑战与进展，特别是针对乳腺癌诊断。作者提出了一种基于Transformer的新型分割模型，该模型解决了传统卷积神经网络（如U-Net）在准确识别和分割乳腺癌图像中的小病变方面的局限性。该模型引入了一种轴向注意力机制，以提高计算效率并解决CNN通常忽略的全局上下文信息问题。此外，论文还讨论了针对小数据集挑战的改进措施，包括引入相对位置信息和一种门控轴向注意力机制，以优化模型对相关特征的关注。所提出的模型旨在显著提高乳腺癌图像的分割准确性，为计算机辅助诊断提供更高效和有效的工具。

发布时间: 9/20/2024

查看原文

联合多先验编码的深度血管分割

arXiv:2409.12334v1 公告类型: 交叉摘要: 在医学图像中精确描绘血管对于许多临床应用至关重要，包括病理检测和手术规划。然而，由于形状、大小和拓扑结构的多样性，全自动血管分割具有挑战性。手动分割仍然是金标准，但耗时、主观且不适用于大规模研究。因此，需要能够从医学图像中准确检测血管的自动且可靠的分割方法。将形状和拓扑先验信息整合到血管分割模型中，已被证明可以通过提供血管形状及其在血管树中的空间关系的上下文信息来提高分割精度。为了进一步提高解剖一致性，我们提出了一种新的联合先验编码机制，该机制在单一潜在空间中结合了形状和拓扑信息。我们的方法在公开的3D-IRCADb数据集上展示了其有效性。更广泛地说，所提出的方法有望克服自动血管描绘的挑战，并有可能推动深度先验编码领域的发展。

发布时间: 9/20/2024

查看原文

GaRField++：用于大规模三维场景重建的强化高斯辐射场

arXiv:2409.12774v1 公告类型: 交叉摘要: 本文提出了一种基于3D高斯喷射（3DGS）的大规模场景重建新框架，旨在解决现有方法面临的扩展性和准确性挑战。为应对扩展性问题，我们将大型场景分割为多个单元，并通过基于可见性的相机选择和渐进式点云扩展，将每个单元的候选点云和相机视图相关联。为增强渲染质量，本文在原始3DGS基础上进行了三项突出改进：一是光线-高斯交点策略和新型高斯密度控制，以提高学习效率；二是基于ConvKAN网络的外观解耦模块，用于解决大规模场景中的光照不均问题；三是通过颜色损失、深度失真损失和法线一致性损失，对最终损失进行了细化。最后，执行无缝拼接程序，将各个高斯辐射场合并，以实现跨不同单元的新视角合成。对Mill19、Urban3D和MatrixCity数据集的评估显示，我们的方法在生成高保真渲染结果方面始终优于现有的大规模场景重建最先进方法。此外，我们还通过渲染商业无人机记录的自采集视频片段，进一步验证了所提出方法的通用性。

发布时间: 9/20/2024

查看原文

深度肝脏血管分割的尺度特定辅助多任务对比学习

arXiv:2409.12333v1 公告类型: 交叉摘要: 从腹部图像中提取肝血管对临床医生具有高度兴趣，因为它能够将肝脏划分为功能独立的Couinaud段。在这方面，自动化的肝脏血管提取被广泛呼吁。尽管语义分割方法的性能显著提升，但保留主要血管及其分支的复杂多尺度几何结构仍然是一个重大挑战。本文提出了一种新的深度监督方法用于血管分割，特别关注于血管树几何结构中固有的不同尺度所产生的表示。具体而言，我们提出了一种新的聚类技术，将血管树分解为从微小到大型血管的不同尺度层次。随后，我们将标准的3D UNet扩展为多任务学习，通过引入尺度特定的辅助任务和对比学习，以促进共享表示中尺度之间的区分。在公开的3D-IRCADb数据集上，通过多种评估指标展示出了有前景的结果。

发布时间: 9/20/2024

查看原文

脉冲神经网络在通信中的鲁棒性及其在联邦学习中提升网络效率的应用

arXiv:2409.12769v1 公告类型: 交叉摘要: 脉冲神经网络 (SNNs) 近年来在嵌入式设备上的片上学习中引起了极大的兴趣，并作为传统人工神经网络 (ANNs) 的节能替代方案出现。然而，要将 SNNs 扩展到涉及协作模型训练的联邦学习 (FL) 环境中，本地设备与远程服务器之间的通信仍然是瓶颈，这通常受到限制且成本高昂。在本文中，我们首先探讨了 SNNs 在 FL 中噪声通信下的固有鲁棒性。在此基础上，我们提出了一种新的基于 Top-K 稀疏化的联邦学习 (FLTS) 算法，以减少 FL 训练的带宽使用。我们发现，与 ANNs 相比，所提出的 SNNs 方案在不损害模型准确性的情况下允许更多的带宽节省。此外，需要通信的参数数量可以减少到原始模型大小的 6% 以下。我们进一步通过在模型训练期间启用动态参数压缩来提高通信效率。广泛的实验结果表明，我们提出的算法在通信成本和模型准确性方面显著优于基线，并且对于具有 SNNs 的实用网络高效 FL 具有前景。

发布时间: 9/20/2024

查看原文

理解文本到图像生成模型中的内爆现象

arXiv:2409.12314v1 公告类型: 交叉摘要: 最近的研究表明，文本到图像生成模型对多种中毒攻击表现出惊人的脆弱性。实证结果发现，这些模型可以通过改变个体文本提示与相关视觉特征之间的关联而被破坏。此外，多个并发的中毒攻击可以引发“模型内爆”，即模型无法为未中毒的提示生成有意义的图像。这些有趣的发现突显了理解这些模型中毒攻击的直观框架的缺失。在这项工作中，我们通过建模和分析潜在扩散模型中的交叉注意力机制，建立了图像生成模型对中毒攻击鲁棒性的首个分析框架。我们将交叉注意力训练建模为一个抽象的“监督图对齐”问题，并通过对齐难度（AD）指标正式量化训练数据的影响。AD越高，对齐越困难。我们证明，AD随着中毒的个体提示（或概念）数量的增加而增加。随着AD的增长，对齐任务变得越来越困难，导致高度扭曲的结果，通常将有意义的文本提示映射到未定义或无意义的视觉表示。因此，生成模型内爆并输出随机、不连贯的图像。我们通过广泛的实验验证了我们的分析框架，并确认和解释了模型内爆的意外（且未解释）效应，同时产生了新的、未预见的见解。我们的工作为研究扩散模型的中毒攻击及其防御提供了一个有用的工具。

发布时间: 9/20/2024

查看原文

增强语音指令合成训练数据：从基于自动语音识别的过滤到自监督学习潜在空间的领域适应

arXiv:2409.12745v1 公告类型: 交叉摘要: 合成语音作为数据增强手段在自动语音识别和语音分类任务等领域中越来越受欢迎。尽管具有语音克隆能力的新型文本到语音系统允许基于短音频片段使用更多语音，但众所周知，这些系统往往会产生幻觉，并经常生成可能对下游任务产生负面影响的劣质数据。在本研究中，我们围绕合成语音数据在语音命令分类这一特定任务中的零样本学习进行了一系列实验。我们在Google语音命令数据集上的结果表明，基于ASR的简单过滤方法可以显著提高生成数据的质量，从而提升性能。此外，尽管生成的语音数据质量良好，我们仍发现使用自监督（WavLM）特征时，合成语音和真实语音仍可轻易区分，这一方面通过CycleGAN进一步探讨，以弥合两种语音材料之间的差距。

发布时间: 9/20/2024

查看原文

微调大型语言模型用于医学：直接参数优化的作用与重要性

大型语言模型（LLM）在医学领域的微调应用尚未得到充分利用。两种最常见的微调方法是监督微调（SFT）和直接参数优化（DPO），但目前缺乏指导用户何时使用这两种技术的信息。在本研究中，我们比较了SFT和DPO在医学领域五种常见自然语言任务中的表现：文本数据分类、数值数据分类、临床推理、摘要生成和临床分诊。我们发现，对于文本数据分类，单独使用SFT已足够；而对于临床推理、摘要生成和临床分诊等更复杂的任务，DPO则能提升性能。我们的研究结果确立了DPO微调在医学领域中的作用和重要性，并因此引起了对当前软件差距的关注，这些差距阻碍了该技术的广泛应用。

发布时间: 9/20/2024

查看原文

MetaPix：一个以数据为中心的人工智能开发平台，用于高效管理和利用非结构化计算机视觉数据

arXiv:2409.12289v1 公告类型: 交叉摘要: 在当今先进的人工智能技术世界中，数据管理是任何AI/ML解决方案的关键组成部分。有效的数据管理对于创建和维护高质量、多样化的数据集至关重要，这些数据集显著增强了预测能力，并推动了更智能的业务解决方案。在这项工作中，我们介绍了MetaPix，一个以数据为中心的AI平台，提供专门为非结构化数据设计的全面数据管理解决方案。MetaPix提供了强大的工具用于数据摄取、处理、存储、版本控制、治理和发现。该平台基于四个关键概念运作：数据源、数据集、扩展和提取器。数据源作为MetaPix的顶级资产，代表特定用途的窄范围数据源。数据集是MetaPix的第二级对象，是结构化的数据集合。提取器是集成到MetaPix后端处理中的内部工具，有助于数据处理和增强。此外，MetaPix支持扩展，允许与外部第三方工具集成，以增强平台功能。本文详细探讨了每个MetaPix概念，展示了它们如何共同为平台的目标做出贡献。通过提供一个全面的管理和利用非结构化计算机视觉数据的解决方案，MetaPix为组织提供了一个强大的工具集，以有效地开发AI应用。

发布时间: 9/20/2024

查看原文

HLLM：通过分层大型语言模型增强项目和用户建模以提升序列推荐

大型语言模型（LLMs）在各个领域取得了显著的成功，促使多项研究探索其在推荐系统中的潜力。然而，这些尝试迄今为止仅在传统推荐模型上取得了适度的改进。此外，三个关键问题仍未得到充分探索：首先，LLMs的预训练权重（通常被认为封装了世界知识）的实际价值；其次，推荐任务中微调的必要性；最后，LLMs在推荐系统中是否能展现出与其他领域相同的可扩展性优势。本文提出了一种新颖的分层大型语言模型（HLLM）架构，旨在增强序列推荐系统。我们的方法采用双层模型：第一层Item LLM从项目的详细文本描述中提取丰富的内容特征，而第二层User LLM利用这些特征基于用户的交互历史预测其未来兴趣。大量实验表明，我们的方法有效利用了开源LLMs的预训练能力，进一步微调带来了显著的性能提升。此外，HLLM具有出色的可扩展性，最大配置使用7B参数进行项目特征提取和用户兴趣建模。此外，HLLM提供了卓越的训练和服务效率，使其在实际应用中具有实用性。在两个大规模数据集PixelRec和Amazon Reviews上的评估显示，HLLM达到了最先进的结果，大幅超越了传统的基于ID的模型。在线A/B测试中，HLLM展示了显著的收益，验证了其在实际推荐场景中的实际影响。代码可在https://github.com/bytedance/HLLM获取。

发布时间: 9/20/2024

查看原文