arXiv:2504.18497v1 交叉公告类型
摘要:经验性推断攻击是评估数据发布机制在实践中隐私风险的一种流行方法。尽管存在评估机器学习模型或合成数据发布的主动攻击方法,但目前我们缺乏对固定汇总统计的可比方法,特别是在仅发布有限数量的统计信息时。我们在此提出了针对固定汇总统计的推断攻击框架和属性推断攻击DeSIA。我们实例化DeSIA针对美国人口普查PPMF数据集,并且表明其在重建攻击的基础上表现出非常显著的优势。尤其是,我们展示了DeSIA在低误报率(10^-3)的情况下能够有效识别易受攻击的用户,真阳性率为0.14。然后我们展示了DeSIA在用户属性无法验证、聚合统计数量变化以及噪声添加程度变化的情况下也能很好地工作。我们还进行了DeSIA的广泛消融研究,并展示了如何使DeSIA成功适应成员推断任务。总体而言,我们的结果表明,单靠聚合并不能在发布相对较少的聚合统计时保护隐私,并强调在发布汇总统计之前需要正式的隐私机制和测试的重要性。
arXiv:2504.18471v1 声明类型:交叉
摘要:机器人领域的持续学习致力于构建能够不断适应变化的环境和任务的系统,模仿人类的适应能力。一个关键挑战是在规划和控制过程中不断改进动力学模型,同时解决诸如安全适应、灾难性遗忘、异常值管理、数据效率以及平衡探索与利用等方面的问题——所有这些都在任务和机载资源的约束条件下进行。为了实现这一目标,我们引入了一种利用流匹配的生成框架,用于在线对齐机器人动力学模型。我们并不是基于一个对齐不好的模型执行动作,而是改进计划的动作,使其更好地与如果模型对齐良好时机器人本应采取的动作相匹配。我们发现,通过变换动作本身而不是探索一个对齐不好的模型——这是传统做法——机器人可以更有效地收集有价值的数据,从而加速学习。此外,我们验证了该方法可以处理一个不断演化且可能不完美的模型,同时如果需要,可以减少对重播缓冲区或遗留模型快照的依赖。我们使用两个平台验证了我们的方法:无人驾驶地面车辆和四旋翼无人机。结果突显了该方法的适应性和效率,创下任务成功率34.2%的最高记录,展示了其在促进持续机器人学习中的潜力。代码:https://github.com/AlejandroMllo/action_flow_matching
arXiv:2504.18458v1 交叉公告类型:cross
摘要:近年来,大型视觉-语言模型(LVLMs)的进步揭示了一个“过度思考”的现象,即模型在所有任务中无论问题如何都会生成冗长的推理。为了解决这一问题,我们提出了一种新颖的**FAST**框架,该框架名为**快慢思考**框架,可根据问题特征动态调整推理深度。通过经验分析,我们通过探讨响应长度和数据分布如何影响性能,证明了LVLMs中快慢思考的可能性。我们开发了FAST-GRPO,包括三个组件:基于模型的指标来对问题进行表征、可自适应的思考奖励机制以及难度感知的KL正则化。在七个推理基准上的实验表明,FAST 在相对改进超过10%的同时,较之之前慢思考方法将标记使用量减少了32.7%-67.3%,有效地平衡了推理长度和准确性。
arXiv:2504.18447v1 交叉类型:cross
摘要:事件相机提供丰富的信号,适用于运动估计,因为它们对场景中的变化作出响应。由于场景中任何视觉变化都会产生事件数据,因此对数据进行分类以区分不同的运动(即运动分割)是非常重要的,这对于诸如目标检测和视觉伺服等任务非常有用。我们提出了一种迭代运动分割方法,通过将事件分类为背景(例如,主导运动假设)和前景(独立运动残差),从而扩展了对比最大化框架。实验结果表明,所提出的方法成功地对公共和自录制的数据集中的事件簇进行了分类,生成了锐化的、具有运动补偿的边缘图像。所提出的方法在移动物体检测基准上的准确率达到了最先进的水平,提高了超过30%,并证明了其在更复杂和嘈杂的现实场景中的应用可能性。我们希望这项工作能够扩大对比最大化的敏感性,不仅针对运动参数,而且针对输入事件,从而促进基于事件的运动分割估计的理论进步。https://github.com/aoki-media-lab/event_based_segmentation_vcmax
arXiv:2504.18437v1 提交类型: cross
摘要: 类增量学习(CIL)是现实世界应用中的一个关键能力,使学习系统能够在适应新任务的同时保留先前知识。最近预训练模型(PTM)的进步显著推动了CIL领域的发展,显示出在传统方法上更优越的性能。然而,如何理解特征在增量任务中的演变和分布仍是一个开放的挑战。在本文中,我们提出了一种通过神经坍缩(NC)的新颖方法来建模基于PTM的CIL中的特征演变,神经坍缩是一种在训练后期观察到的引人注目的现象,导致特征空间充分分离且等角。我们探讨了NC与CIL有效性之间的联系,表明将特征分布与NC几何结构对齐可以增强捕捉连续学习动态行为的能力。基于这一见解,我们引入了神经坍缩启发式的基于PTM的CIL(NCPTM-CIL)方法,该方法动态调整特征空间以符合优美的NC结构,从而增强连续学习过程。广泛的实验表明,NCPTM-CIL在四个基准数据集上优于最先进的方法。值得注意的是,在使用ViT-B/16-IN1K初始化时,NCPTM-CIL在VTAB上的表现超过第二名方法6.73%,在CIFAR-100上的表现超过2.5%,在泛化基准上超过1.25%。
arXiv:2504.18425v1 宣传类型: cross
摘要: 我们介绍了一个开源的音频基础模型 Kimi-Audio,它在音频理解、生成和对话方面表现出色。我们详细描述了构建 Kimi-Audio 的实践,包括模型架构、数据整理、训练配方、推理部署和评估。具体而言,我们利用了一个 12.5Hz 的音频分词器,设计了一种基于 LLM 的架构,输入为连续特征,输出为离散标记,并开发了一种基于流匹配的分块流式反分词器。我们整理了一个包含超过 1300 万小时音频数据的预训练数据集,这些数据涵盖了语音、声音和音乐等多种模态,并构建了一个管道来构建高质量和多样化的训练后数据。从一个预训练的 LLM 初始化,Kimi-Audio 在音频和文本数据上进行了持续预训练,并通过精心设计的任务进行了微调,以支持各种音频相关任务。广泛的评估表明,Kimi-Audio 在包括语音识别、音频理解、音频问答和语音对话在内的多种音频基准测试中取得了最先进的性能。我们已在 https://github.com/MoonshotAI/Kimi-Audio 上发布了代码、模型检查点以及评估工具包。
arXiv:2504.18423v1 安全公告类型: 横跨多个领域
摘要: 尽管人工智能(AI)在各个领域的变革性影响日益增强,但网络安全仍然依赖于传统的静态和动态分析工具,这些工具因高假阳性率和表面化的代码理解而受到限制。虽然生成型AI为软件开发提供了强大的自动化能力,但利用大规模语言模型(LLMs)进行漏洞检测带来了独特的挑战。本文探讨了LLMs在识别漏洞方面的潜力和局限性,承认其固有的弱点,如幻觉、有限的上下文长度和知识截止现象。之前尝试使用机器学习模型进行漏洞检测的努力因其实用性有限、特征工程挑战、缺乏上下文理解以及难以训练模型跟上不断变化的威胁环境而证明无效。因此,我们提出了一种稳健的基于AI的方法,旨在缓解这些局限性,确保基于LLMs的漏洞检测的质量和可靠性。通过结合检索增强生成(RAG)和多智能体混合(MoA)的创新方法论,这项研究旨在利用LLMs的优点并解决其弱点,最终为确保不断变化的软件环境的安全性铺平了道路,提供了可靠且高效的AI驱动解决方案。
arXiv:2504.18419v1 Announce Type: 跨领域
摘要: 我们提出了一种新的方法,利用多模态输入从LiDAR和RGB摄像头检测3D物体,采用一种结合了RGB检测网络和3D LiDAR探测器的混合晚融方案。我们利用晚融原则减少LiDAR的假阳性检测,通过将LiDAR边界框投影到图像上来匹配LiDAR和RGB检测结果。我们依赖级联融合原则利用视图之间RGB检测生成的极线约束和锥体,恢复LiDAR的假阴性检测。我们的解决方案可以堆叠在任何底层单模态检测器之上,使训练过程具有灵活性,可以利用预训练的LiDAR和RGB检测器,或单独训练两个分支。我们在KITTI物体检测基准上评估了我们的结果,显示出显著的性能提升,尤其是在行人和骑行者检测方面。
arXiv:2504.18404v1 宣告类型: cross
摘要: 生成式人工智能(GenAI)应用程序正在通过使代码协作自动化来改变软件工程。然而,有关GenAI在工业环境中的生产力影响的实证证据仍然有限。本文探讨了电信和金融科技领域中GenAI编码助手(例如,Codeium,Amazon Q)的采用情况。通过调查和采访工业领域专家,我们确定了影响生产力的主要因素,包括任务复杂性、编码技能、领域知识以及GenAI整合。我们的研究结果表明,GenAI工具在常规编码任务(例如,重构和Javadoc生成)中提高了生产力,但在复杂且具有特定领域特征的活动中面临挑战,因为代码库的上下文感知有限,而且缺乏对定制设计规则的支持。我们强调了新的编码转移范式,强调迭代提示优化、沉浸式开发环境和自动化代码评估是有效利用GenAI的关键。
arXiv:2504.18400v1 形状测量类型:交叉
摘要:形状测量已经作为白质纤维束成像的有希望的描述符出现,提供了对解剖学变异性和与认知和临床表型相关性的互补见解。然而,由于依赖于体素级表示,传统的形状测量计算方法对于大规模数据集来说计算成本高且耗时。我们提出了一种名为Tract2Shape的新颖多模态深度学习框架,该框架利用几何(点云)和标量(表格)特征来预测十种白质纤维束成像的形状测量。为了提高模型效率,我们利用降维算法使模型能够预测五种主要形状组件。该模型在HCP-YA数据集和PPMI数据集上分别进行训练和评估。为了评估Tract2Shape的性能,我们首先在HCP-YA数据集上对其进行训练和测试,并将其结果与现有最先进的模型进行比较。为进一步评估其稳健性和泛化能力,我们还在未见过的PPMI数据集上测试了Tract2Shape。Tract2Shape在所有十种形状测量中均优于最先进的深度学习模型,在HCP-YA数据集上实现了最高的平均皮尔逊相关系数和最低的nMSE。消融研究表明,多模态输入和PCA都有助于性能提升。在未见过的测试数据集PPMI数据集上,Tract2Shape保持了高的皮尔逊相关系数和低的nMSE,展示了强大的跨数据集评估泛化能力。Tract2Shape能够快速、准确且泛化地预测纤维束成像的数据中的白质形状测量,支持数据集间的大规模分析。该框架为未来的大型白质形状分析奠定了有希望的基础。