arXiv 论文列表

作者: Zhisong Zhang, Tianqing Fang, Kaixin Ma, Wenhao Yu, Hongming Zhang, Haitao Mi, Dong Yu

arXiv:2504.11788v1 宣告类型: cross 摘要：随着大型语言模型的最近进步，网络代理已经得到了极大的改进。然而，处理复杂和动态的网络环境需要更高级的规划和搜索能力。之前的研究所通常采用贪婪的一次性搜索策略，这可能导致在错误状态中难以恢复。在本工作中，我们通过引入显式的回滚机制增强网络代理，使其能够回到导航轨迹中的先前状态。该机制赋予模型直接控制搜索过程的灵活性，从而实现有效的和高效的网络导航方法。我们在两个实时网络导航基准上进行了零样本和微调设置的实验。结果证实了我们提出的这种方法的有效性。

发布时间: 4/17/2025

查看原文

ACMamba：通过非对称共识状态空间模型实现快速无监督异常检测

作者: Guanchun Wang, Xiangrong Zhang, Yifei Zhang, Zelin Peng, Tianyang Zhang, Xu Tang, Licheng Jiao

arXiv:2504.11781v1 交叉类型公告摘要：在高光谱图像（HSI）中进行无监督异常检测，旨在从背景中检测未知目标，这对于地球表面监测来说是一个挑战。然而，当前的研究由于高维属性和基于密集采样的训练范式导致计算成本高昂，这限制了它们的快速部署。我们的重要观察是，在训练过程中，不是所有同一 homogeneous 区域内的样本都是必不可少的，而巧妙的采样可以提供一种强大的替代方案来降低成本。受到这一观察的启发，我们提出了一种不对称共识状态空间模型（ACMamba）来显著降低计算成本，而不牺牲准确性。具体而言，我们设计了一种不对称异常检测范式，利用区域级实例作为像素级密集样本的高效替代方案。在这一范式中，引入了一个低成本的 Mamba 基础模块，用于发现对于 HSI 重构至关重要的全局上下文属性。此外，我们从优化的角度开发了一种一致性学习策略，同时促进背景重构和异常压缩，进一步减轻异常重构的负面影响。对八个基准的理论分析和广泛实验验证了 ACMamba 的优越性，展示出与最新技术相比更高的速度和更强的性能。

发布时间: 4/17/2025

查看原文

敏捷回顾：什么做得好？什么做得不好？我们应该怎么做？

作者: Maria Spichkova, Hina Lee, Kevin Iwan, Madeleine Zwart, Yuwon Yoon, Xiaohan Qin

arXiv:2504.11780v1 项目类型：交叉研究摘要：在敏捷/Scrum软件开发中，回顾会议（回顾）的概念是项目流程中的核心要素之一。在本文中，我们介绍了我们正在进行的工作，重点关注两个方面：分析生成式AI在回顾会议中用于信息交互的潜在用途，以及对回顾信息的可视化呈现给软件开发团队。我们还介绍了我们的原型工具RetroAI++，重点关注与回顾相关的功能。

发布时间: 4/17/2025

查看原文

PCDiff: 前瞻性控制以在具有水印兼容性的扩散模型中保护所有权

作者: Keke Gai, Ziyue Shen, Jing Yu, Liehuang Zhu, Qi Wu

arXiv:2504.11774v1 安全类型：跨域摘要: 随着对保护文本到图像扩散模型知识产权的需求日益增长，我们提出了一种名为PCDiff的前瞻式访问控制框架，通过调节生成质量重新定义模型授权。在核心之处，PCDIFF将可训练融合模块和分层认证层整合进解码器架构中，确保只有持有有效加密凭证的用户能够生成高保真度图像。在没有有效密钥的情况下，系统会故意降低输出质量，有效地防止未经授权的利用。重要的是，虽然主要机制通过 architectural 干预实施积极的访问控制，但其解耦设计保留了与现有水印技术的兼容性。这满足了模型所有者积极控制模型所有权的需求，同时保留了传统水印方法提供的可追溯性能力。广泛的实验评估证实，在各种攻击场景下，凭证验证与图像质量之间存在强烈的依赖关系。此外，当与典型的后处理操作结合使用时，PCDIFF展示了与传统水印方法相当的性能。这项工作将范式从被动检测转变为积极执行授权，为扩散模型的知识产权管理奠定了基础。

发布时间: 4/17/2025

查看原文

GrabS: 无需场景监督的生成式实体代理三维物体分割模型

作者: Zihui Zhang, Yafei Yang, Hongtao Wen, Bo Yang

arXiv:2504.11754v1 交叉类型：cross 摘要：我们研究了在没有3D场景的人工标签监督的情况下，3D物体分割的难题。通过依靠预训练的2D特征或其他外部信号如运动的相似性来分组3D点为物体，现有的无监督方法通常局限于识别简单的物体，如汽车，或者是由于预训练特征缺乏物体特性，分割出的物体质量往往较差。在本文中，我们提出了一种新的两阶段管道，称为GrabS。我们方法的核心理念是在第一阶段从物体数据集中学习生成性和判别性的物体中心先验，然后在第二阶段设计一个具身代理，通过查询预训练的生成性先验来学习发现多个物体。我们在两个真实世界数据集和一个新创建的合成数据集上广泛评估了我们的方法，展示了卓越的分割性能，明显超越了所有现有的无监督方法。

发布时间: 4/17/2025

查看原文

CPU-GPU耦合架构上characterizing和优化LLM推理工作负载

作者: Prabhu Vellaisamy, Thomas Labonte, Sourav Chakraborty, Matt Turner, Samantika Sury, John Paul Shen

arXiv:2504.11750v1 类型: cross 摘要:基于大型语言模型（LLM）的推理工作负载越来越多地支配着数据中心的成本和资源利用率。因此，理解在不断演变的CPU-GPU耦合架构上的推理工作负载特性对于优化至关重要。本文对松散耦合（PCIe A100/H100）和紧密耦合（GH200）系统上的LLM推理行为进行了深入分析。我们通过我们的新型探针SKIP和总内核启动时间和队列时间（TKLQT）等指标，利用细粒度的操作符到内核跟踪分析来分析性能动态。结果表明，紧密耦合（CC）GH200在大批量下显著优于松散耦合（LC）系统，对于Llama 3.2-1B模型实现了1.9倍至2.7倍更快的预填充延迟。然而，我们的分析还表明，GH200在批量大小比LC系统大4倍之前仍然受CPU限制。在这个扩展的CPU限制区域内，我们发现在低批量大小下GH200的推理延迟较高的一个重要因素是Grace CPU的性能特征。我们证明TKLQT能够准确识别这一CPU/GPU限制转换点。基于此分析，我们进一步展示了内核融合能够通过减少内核启动开销来显著缓解GH200在低批量延迟瓶颈方面的巨大潜力。这项详细的内核级表征为优化各种CPU-GPU耦合策略提供了关键见解。这项工作是初步研究，我们计划探索其他主要的AI/DL工作负载，这些工作负载对CPU-GPU异构架构的需求程度不同。

发布时间: 4/17/2025

查看原文

Saga：从大量未标注的IMU数据中捕获多粒度语义以用户感知为准绳

作者: Yunzhe Li, Facheng Hu, Hongzi Zhu, Shifan Zhang, Liang Zhang, Shan Chang, Minyi Guo

arXiv:2504.11726v1 宣告类型: cross 摘要: 动态测量单元（IMUs）已在活动识别和用户认证等多种移动感知应用中普遍使用，通常需要大量标注数据来训练一个令人满意的模型。然而，由于难以理解原始IMU数据和缺乏真实标签，大规模IMU数据中的微活动标注非常困难。在本文中，我们提出了一种新的细粒度用户感知方法，称为Saga，该方法仅需少量标注的IMU数据即可实现令人惊叹的用户感知准确性。Saga的核心思想是首先利用大量未标注的IMU数据中嵌入的不同层次的丰富语义信息来预训练一个骨干特征提取模型。同时，对于特定的下游用户感知应用，使用贝叶斯优化来确定预训练任务中涉及不同语义层次的最优权重。我们在五种典型的移动电话上实现了Saga，并在三个典型的任务上使用三个IMU数据集评估了Saga。结果显示，在每类仅使用约100个训练样本的情况下，Saga可以达到超过有超过数万个训练样本的完整模型90%以上的准确率，而无需额外的系统开销。

发布时间: 4/17/2025

查看原文

伴随采样：通过伴随匹配实现的高可扩展性扩散采样器

作者: Aaron Havens, Benjamin Kurt Miller, Bing Yan, Carles Domingo-Enrich, Anuroop Sriram, Brandon Wood, Daniel Levine, Bin Hu, Brandon Amos, Brian Karrer, Xiang Fu, Guan-Horng Liu, Ricky T. Q. Chen

arXiv:2504.11713v1 类型: cross 摘要: 我们引入了一种名为伴随采样的高效算法，该算法适用于从未规范概率密度或能量函数中采样扩散过程的学习。这是首个允许进行的梯度更新数远多于能量评价和模型样本数量的在策略方法，从而使我们能够将问题规模扩展到先前类似方法未曾探索的更大范围。我们的框架理论基础为随机最优控制，并与伴随匹配方法具有相同的理论保证，能够在无需使用将样本推向目标分布的纠正措施的情况下进行训练。我们展示了如何在笛卡尔坐标和扭转坐标下整合关键对称性和周期边界条件，以建模分子。通过在经典能量函数上的大量实验，我们展示了该方法的有效性，并进一步扩展到基于神经网络的能量模型，在这些模型中我们在许多分子系统中进行了优化构象生成。为了鼓励进一步研究开发大规模采样方法，我们计划开源这些具有挑战性的基准，成功的方法可以直接影响计算化学的进步。

发布时间: 4/17/2025

查看原文

程序分析 hitchhiker 指南的第二部分：来自大语言模型的深入思考

作者: Haonan Li, Hang Zhang, Kexin Pei, Zhiyun Qian

arXiv:2504.11711v1 安全公告类型: 交叉摘要：静态分析是软件漏洞检测的基础，但往往在精确度和可扩展性之间面临经典权衡。实践中，这样的工具常常产生较高的假阳性率，尤其是在像Linux内核这样的大型代码库中。这种不精确可能是由于简化了的漏洞建模和路径和数据约束的过度近似所造成的。虽然大型语言模型（LLMs）在代码理解方面显示出潜力，但它们在程序分析中的简单应用会因为固有的推理限制而产生不可靠的结果。我们引入了BugLens，这是一种后调整框架，显著提高了静态分析的精确度。BugLens通过评估恶意代码模式对安全的影响，并验证与静态警告相关的约束条件，引导LLM遵循传统的分析步骤。在实际Linux内核漏洞上的评估表明，BugLens将精确度从原始的0.10和半自动调整的0.50提高到0.72，大幅减少了假阳性，并揭示了四个之前未报告的漏洞。我们的结果表明，基于结构化的LLM的工作流程可以显著增强静态分析工具的效果。

发布时间: 4/17/2025

查看原文

面向网络的 Sicherer合成图像生成：一种多模态稳健的NSFW防御和百万规模数据集

作者: Muhammad Shahid Muneer, Simon S. Woo

arXiv:2504.11707v1 Announce Type: cross 摘要：在过去几年中，我们见证了文本生成图像（T2I）模型的杰出成功及其在网上的广泛应用。为了生成超真实的图像，大量的研究推动了T2I模型的发展，也带来了一些新的关注点，如生成不适合工作环境（NSFW）的网络内容以及污染网络社会。为了帮助预防T2I模型的误用并为用户提供更安全的网络环境，这些模型中使用了诸如NSFW过滤器和事后安全检查等功能。然而，近期的工作揭示了这些方法如何容易未能预防误用。尤其是，针对文本和图像模态的对抗攻击很容易凌驾于防御措施之上。利用这种能力，对抗攻击成为日益关注的问题。此外，目前尚无稳健的多模态NSFW数据集，其中包括提示和图像对以及对抗样本。这项工作提出了一种使用开源扩散模型生成的一百万规模的提示和图像数据集。其次，我们开发了一种多模态防御方法，以区分安全和NSFW的文本和图像，并且该防御方法对对抗攻击具有鲁棒性，并直接缓解了当前的挑战。我们广泛的实验表明，我们的模型在准确性与召回率方面优于现有的最佳NSFW检测方法，在多模态对抗攻击场景中将攻击成功率（ASR）大幅降低。代码：https://github.com/shahidmuneer/multimodal-nsfw-defense。

发布时间: 4/17/2025

查看原文