arXiv:2505.09371v1 交叉公告类型:交叉学科
摘要:变分量子算法有望在嘈杂的中等规模量子硬件上解决具有实际意义的量子问题,但它们面临着设计既能解决目标问题又能符合设备限制的量子电路的挑战。量子架构搜索(QAS)自动化了这一设计过程,强化学习(RL)作为一种有前途的方法正逐渐受到关注。然而,基于RL的QAS方法遇到了显著的可扩展性问题,随着量子位数、电路深度和噪声的增加,计算和训练成本迅速增长,严重影响了性能。为了解决这些挑战,我们引入了$\textit{TensorRL-QAS}$,这是一种结合了张量网络(TN)方法和RL的可扩展框架,用于设计量子电路。通过使用目标解决方案的矩阵乘积态近似进行架构搜索的预热,TensorRL-QAS有效地缩小了搜索范围至物理上可行的电路,加速了对所需解的收敛。我们在涉及最多12量子位的几个量子化学问题上测试了TensorRL-QAS,与基线方法相比,它实现了高达10倍的CNOT数量和电路深度的减少,同时保持或超过了化学准确性。它将功能评估减少了高达100倍,加速了训练回合高达98%,并且对于10量子位系统实现了高达50%的成功概率——远远超过了基线方法的不到1%的成功率。在无噪声和有噪声的场景下,我们展示了其鲁棒性和多功能性,其中我们在8量子位上进行了模拟。这些进展确立了TensorRL-QAS作为近期内量子硬件上一种可扩展且高效的量子电路发现协议的有前途候选者的地位。
arXiv:2505.09344v1 交叉公告类型
摘要:在神经架构搜索过程中确定深度神经网络的性能对于识别最优架构和超参数至关重要。传统的方法需要对每个网络进行训练和评估,这既耗时又资源密集。零成本代理通过不进行训练来估计性能,作为传统训练的一种替代方案。然而,最近的代理往往在多种场景下缺乏概括性,并且只能提供相对排名而不是预测的准确度。为了解决这些限制,我们提出了一种名为GreenFactory的零成本代理集合,利用随机森林回归器整合多个预测器的优势,直接预测模型测试准确度。我们利用NATS-Bench评估了GreenFactory,使其在多个数据集上表现出稳健的结果。具体来说,GreenFactory在NATS-Bench-SSS上实现了高Kendall相关性,表明其预测分数与实际性能之间有显著的一致性:CIFAR-10上的0.907,CIFAR-100上的0.945,以及ImageNet-16-120上的0.920。同样,在NATS-Bench-TSS上,我们实现了CIFAR-10上的0.921,CIFAR-100上的0.929,以及ImageNet-16-120上的0.908的相关性,展示了其在两个搜索空间中的可靠性。
arXiv:2505.09343v1 类型:交叉
摘要:大规模语言模型(LLMs)的快速扩展揭示了当前硬件架构的关键局限性,包括内存容量、计算效率和互连带宽的限制。DeepSeek-V3 在 2048 块 NVIDIA H800 GPU 上进行训练,展示了如何通过硬件感知的模型协同设计有效地应对这些挑战,从而实现大规模的成本效益训练和推理。本文深入分析了 DeepSeek-V3/R1 模型架构及其 AI 基础设施,强调了包括多头潜在注意(MLA)以提高内存效率、专家混合架构(MoE)以优化计算-通信权衡、混合精度 FP8 训练以充分利用硬件能力以及多平面网络拓扑以最小化集群级网络开销在内的关键创新。基于在 DeepSeek-V3 开发过程中遇到的硬件瓶颈,我们与学术界和业界同行进行了更广泛的讨论,探讨了未来的潜在硬件发展方向,包括精确的低精度计算单元、规模化收敛以及低延迟通信网络架构的进步。这些见解突显了硬件与模型协同设计在应对不断增长的 AI 工作负载需求方面的关键作用,为下一代 AI 系统的创新提供了实践蓝图。
arXiv:2505.09342v1 类别: cross
摘要:机器学习是Android恶意软件检测的关键工具,能够有效地识别应用中的恶意模式。然而,基于机器学习的检测器容易受到抗绕攻击的影响,这类攻击通过细微、定制化的变更绕过检测。尽管在对抗性防御方面取得了进展,但在二进制受限制领域缺乏全面评估框架限制了对它们的鲁棒性的理解。我们提出了两个关键贡献。首先,优先级二进制舍入技术,一种将连续扰动转换为二进制特征空间的技术,同时保持高攻击成功率和低扰动大小。其次,sigma-binary攻击,一种针对二进制领域的新型对抗方法,旨在通过最小的特征变化实现攻击目标。在Malscan数据集上的实验表明,sigma-binary优于现有攻击方法,并揭示了现有防御的关键脆弱性。配备有对手检测器的防御措施,如KDE、DLA、DNN+和ICNN,显示出显著的脆弱性,攻击成功率达到90%以上,仅使用不到10个特征修改,并且只需20个修改即可达到100%的成功率。针对小预算的对抗性训练防御措施,如AT-rFGSM-k和AT-MaxMA,在一定程度上增强了鲁棒性,但仍然对未受限制的扰动易受攻击,分别显示出99.45%和96.62%的攻击成功率。尽管PAD-SMA通过保持攻击成功率低于16.55%,在对抗最先进梯度基的对抗攻击方面表现出强大的鲁棒性,但sigma-binary攻击显著优于这些方法,在未受限制的扰动下实现了94.56%的成功率。这些发现强调了需要精确如sigma-binary的方法来揭示现有防御中的隐藏脆弱性,并支持开发更鲁棒的恶意软件检测系统的重要性。
arXiv:2505.09329v1 Announce Type: cross
摘要:扩大模型和数据的规模在广泛的任务上展示了令人印象深刻的性能提升。尽管对通用任务的缩放行为进行了广泛研究,但医学影像与自然数据之间存在显著差异。由于在医学领域缺乏对缩放行为的广泛理解,开发大规模医学视觉基础模型的关键因素仍然不清楚。在本文中,我们通过自监督学习探索了在开发可扩展的医学视觉基础模型时跨模型规模、训练算法、数据规模和成像模态的缩放行为。为了支持可扩展的预训练,我们引入了BioVFM-21M,这是一个大规模的生物医学图像数据集,涵盖了多种生物医学图像模态和解剖结构。我们观察到,扩大规模确实有益,但不同任务之间有所差异。进一步的分析揭示了几种与缩放益处相关的因素。最后,我们提出了一种名为BioVFM的大型医学视觉基础模型,该模型在2100万生物医学图像上进行预训练,并在12项医学基准测试中优于之前的最先进的基础模型。我们的结果显示,虽然扩大规模有助于提升性能,但任务特性、数据多样性、预训练方法和计算效率仍然是开发可扩展的医学基础模型的关键考虑因素。
arXiv:2505.09324v1 Announce Type: cross
摘要:多年来,计算机视觉和图像处理研究社区一直致力于标准化视频数据通信,这导致了诸如AVC、HEVC、VVC、AV1、AV2等标准的产生。然而,近期的研究成果集中在运用基于深度学习的技术来替代传统的视频编解码流水线,以产生更显著的效果。神经视频编解码器(NVC)提供了一个端到端的基于机器学习的解决方案,不需要任何手工艺品特征(运动或边缘基于的),并且能够学习内容感知压缩策略,这些策略比起传统方法更能提供更好的适应性和更高的压缩效率。这一点不仅能对硬件设计产生巨大的潜力,也能对各种视频流媒体平台和应用产生影响,尤其是在MS-Teams或Zoom这样的视频会议应用中,这类应用在教室和工作场所中得到了广泛应用。然而,目前它们高计算需求限制了它们在如视频会议之类的实时应用中的使用。为了解决这个问题,我们提出了一种基于区域兴趣(ROI)的神经视频压缩模型,该模型利用2D高斯点投影。与传统的编解码器不同,2D高斯点投影能够实现实时解码,并且可以通过较少的数据点进行优化,只需数千个高斯函数即可获得良好的输出质量,而三维场景则需要数百万个。在这项工作中,我们设计了一个视频流水线,通过使用内容感知初始化策略配以新的高斯帧间冗余减少机制,将基于高斯点投影的图像编解码器的编码时间加快了88%,从而使高斯点投影能够用于视频编解码解决方案,在神经视频编解码器领域这是首个此类解决方案。
arXiv:2505.09295v1 类型: 交叉
摘要:在医疗保健等高风险领域应用人工智能时,确保公平性至关重要,因为这些领域中的预测模型可能会在不平衡且统计特征偏斜的数据上进行训练,进而加剧现有的不平等。联邦学习(FL)能够在不侵犯隐私的情况下促进机构间的合作,但仍然容易受到算法偏见和子组不平衡的影响,尤其是在多种敏感属性相交的情况下。我们提出了一种名为 FedIDA(面向不平衡和差异感知的联邦学习)的一般框架,该框架结合了公平性意识正则化与组条件过采样。FedIDA 在不改变底层 FL 算法收敛行为的情况下支持多个敏感属性和异质数据分布。我们通过利普希茨连续性和集中不等式提供了理论分析,确立了公平性改进的界限,并证明了 FedIDA 可以降低公平性指标在测试集上的方差。在基准数据集和真实世界临床数据集上的实验结果证实了 FedIDA 可以一致地提高公平性同时保持竞争力的预测性能,展示了其在医疗保健中实现公平和隐私保护建模的有效性。相关源代码可在 GitHub 上获取。
arXiv:2505.09265v1 宣告类型:交叉
摘要:零样本和少样本视觉异常分割依赖于强大的视觉-语言模型,这些模型使用手工设计的文本提示来检测未见过的异常。然而,视觉表示本质上与语言是独立的。在本文中,我们探索了纯视觉基础模型作为广泛使用的视觉-语言模型的替代品,以实现通用视觉异常分割的潜力。我们提出了一种新的范式,将异常分割统一为变化分割。此范式使我们能够利用源自现有图像数据集的大规模合成图像对,这些图像对包含对象级别和局部区域变化,且与目标异常数据集独立。我们提出了一种名为通用异常分割 (MetaUAS) 的元学习框架,在此合成数据集上进行训练,然后能够很好地泛化到分割真实世界中任何新的或未见过的视觉异常。为了处理提示图像和查询图像之间的几何变化,我们提出了一种软特征对齐模块,该模块连接配对图像变化感知和单图像语义分割。这是首次使用纯视觉模型实现通用异常分割的工作,而不需要依赖特殊异常检测数据集和预训练的视觉-语言模型。我们的方法仅使用一张正常图像提示就能有效且高效地分割任何异常,并且训练过程无须语言指导。我们的MetaUAS在零样本、少样本甚至全样本异常分割方法中具有显著的性能优势。代码和预训练模型可在 https://github.com/gaobb/MetaUAS 获取。
arXiv:2505.09264v1 交叉类型:公告
摘要:使用自注意力变换器的无监督重建网络在单个模型中实现了多类别(统一)异常检测的最先进性能。然而,这些自注意力重建模型主要操作目标特征,可能会由于上下文的一致性而导致完美地重建正常和异常特征,从而在检测异常方面失败。另外,由于在低空间分辨率的潜在空间中进行重建,这些模型通常会产生不准确的异常分割。为了解决同时拥有高效重建和增强统一异常检测的泛化能力的问题,我们提出了一种简单且有效的方法,即仅通过一个正常图像提示(OneNIP)进行正常特征的重建和异常特征的恢复。与以前的工作相比,OneNIP首次能够仅通过一个正常图像提示重建或恢复异常特征,从而显著提升统一异常检测的性能。此外,我们提出了一种监督精修器,通过使用真实正常图像和合成异常图像来回归重建误差,这极大地提高了像素级异常分割的精度。OneNIP在三个工业异常检测基准(MVTec、BTAD和VisA)中优于以前的方法。代码和预训练模型可在 https://github.com/gaobb/OneNIP 获取。
arXiv:2505.09263v1 异常检测类型: 横跨领域
摘要:异常检测是一项实际而又充满挑战的任务,因为在工业检查中异常样本稀缺。一些现有的异常检测方法通过添加噪声或外部数据来合成异常,解决了这一问题。然而,合成的异常与现实世界中的异常之间始终存在较大的语义差距,导致异常检测性能较弱。为了解决这一问题,我们提出了一种少样本驱动生成(AnoGen)方法,该方法仅使用少量真实的异常样本来引导扩散模型生成真实且多样的异常,从而能够提高异常检测模型的训练效果。具体而言,我们的工作分为三个阶段。在第一个阶段,我们基于给定的少量真实异常样本学习异常分布,并将学习到的知识注入到嵌入中。在第二个阶段,我们使用嵌入和给定的边界框来引导扩散模型在特定对象(或纹理)上生成真实且多样的异常。在最终阶段,我们提出了一种弱监督异常检测方法,使用生成的异常来训练一个更强大的模型。我们的方法以DRAEM和DesTSeg为基础模型,并在常用的工业异常检测数据集MVTec上进行了实验。实验结果显示,我们生成的异常能有效提高异常分类和分割任务的模型性能,例如,DRAEM和DesTSeg分别在分割任务中的AU-PR指标上分别实现了5.8%和1.5%的提升。我们的代码和生成的异常数据可在https://github.com/gaobb/AnoGen获取。