arXiv 论文列表

作者: Lei Zhou, Youwen Zhu

arXiv:2502.14558v1 宣告类型：交叉摘要：随着关于“被遗忘的权利”相关法规的引入，联邦学习（FL）面临着新的隐私合规挑战。为应对这些挑战，研究人员提出了联邦遗忘（FU）。然而，现有的FU研究主要集中在提高遗忘效率上，对这些方法中存在的潜在隐私漏洞关注较少。为弥补这一不足，我们从FL中的梯度反向攻击中汲取灵感，提出了联邦遗忘反转攻击（FUIA）。FUIA 是专门针对三种类型的FU（样本遗忘、客户端遗忘和类别遗忘）设计的，旨在提供FU与隐私泄露风险相关的全面分析。在FUIA中，服务器充当诚实但好奇的攻击者，记录并利用遗忘前后模型的差异，以揭示被遗忘数据的特征和标签。FUIA 显著泄露了被遗忘数据的隐私，并且可以针对所有类型的FU。这种攻击与FU的消除特定数据影响的目的相矛盾，而是利用其漏洞恢复被遗忘的数据并暴露其隐私缺陷。广泛的实验结果表明，FUIA可以有效地揭示被遗忘数据的私人信息。为了减轻这种隐私泄露，我们还探索了两种潜在的防御方法，尽管这会降低遗忘效果的有效性以及被遗忘模型的可用性。

发布时间: 2/21/2025

查看原文

多尺度字语言模型——一种用于因果百万长度序列建模的分层架构

作者: Eric Egli, Matteo Manica, Jannis Born

arXiv:2502.14553v1 Announce Type: 多模态摘要：字节是数字世界的基石，因此它们是多模态基础模型的一个有前途的构建块。近年来，Byte 语言模型 (BLMs) 逐渐出现，以克服标记化的问题，但字节流的过长长度需要新的架构范式。因此，我们提出了多尺度 Byte 语言模型 (MBLM)，这是一种模型无关的分层解码器堆栈，在单块 GPU 上以全模型精度训练时，允许使用 5M 字节的上下文窗口。我们在单模型精度下对 MBLM 的性能进行了彻底的考察，使用 Transformer 和 Mamba 块在单模态和多模态任务上进行了评估。我们的实验表明，混合架构在处理训练过程中极长的字节序列时非常有效，同时实现了接近线性的生成效率。据我们所知，这是首次对 BLMs 在视觉 Q&A 任务中的评估。尽管如此，MBLM 在纯下一个标记预测的情况下，能够匹配具有指定分类头的定制 CNN-LSTM 架构。我们展示了 MBLMs 在集成各种数据表示方面表现出强大的适应性，包括像素和图像文件流字节，强调了它们向全模态基础模型的潜在发展。源代码已在以下网址公开：https://github.com/ai4sd/multiscale-byte-lm

发布时间: 2/21/2025

查看原文

位置：由于糟糕的基准测试，图学习将会失去相关性

作者: Maya Bechler-Speicher, Ben Finkelshtein, Fabrizio Frasca, Luis M\"uller, Jan T\"onshoff, Antoine Siraudin, Viktor Zaverkin, Michael M. Bronstein, Mathias Niepert, Bryan Perozzi, Mikhail Galkin, Christopher Morris

arXiv:2502.14546v1 种类: cross 摘要: 虽然图上的机器学习在药物设计和分子性质预测方面展现了潜力，但在进一步发展和实际应用中的基准测试挑战仍然限制着其应用范围和相关性。当前的基准测试实践往往缺乏对变革性、实际应用的关注，更倾向于关注如二维分子图等狭窄领域，而不是更广泛、更具影响力的领域，如组合优化、关系数据库或芯片设计。此外，许多基准数据集未能恰当地代表底层数据，导致不充分的抽象和错位的应用场景。碎片化的评估以及对准确性的过度关注进一步加剧了这些问题，激励了过度拟合而非促进了泛化的见解。这些局限性阻碍了真正有用的图基础模型的发展。本文呼吁向更具意义的基准测试、严格的评估协议以及与领域专家更紧密的合作转变，以驱动图学习研究中具有影响力和可靠性的进展，释放图学习的潜力。

发布时间: 2/21/2025

查看原文

基于大型语言模型的多代理系统传染性递归阻塞攻击/Register-based Contagious Recursive Blocking Attacks on Multi-Agent Systems Based on Large Language Models

作者: Zhenhong Zhou, Zherui Li, Jie Zhang, Yuanhe Zhang, Kun Wang, Yang Liu, Qing Guo

arXiv:2502.14529v1 类型:交叉摘要:基于大型语言模型的多智能体系统（LLM-MASs）展示了卓越的现实世界能力，能够有效协作完成复杂的任务。虽然这些系统设计了安全性机制，如通过对齐来拒绝有害指令，但它们的安全性仍然几乎没有被探索。这一漏洞使LLM-MASs容易遭受有针对性的破坏。在本文中，我们介绍了一种新颖而简单的有效攻击——传染性递归阻断攻击（Corba），这种攻击破坏了LLM-MAS内部智能体之间的交互。Corba 利用了两个关键特性：其传染性使其能够在任意网络拓扑结构中传播，而其递归性使其能够持续耗尽计算资源。值得注意的是，这些阻断攻击往往涉及看似无害的指令，这使得使用传统的对齐方法进行缓解变得尤为困难。我们对AutoGen和Camel这两种广泛使用的LLM-MAS进行了评估，分别在各种拓扑结构和商用模型上进行测试。此外，我们在开放性的交互式LLM-MAS中进行了更广泛的实验，证明了Corba在复杂拓扑结构和开源模型中的有效性。我们的代码可在以下地址获取：https://github.com/zhrli324/Corba。

发布时间: 2/21/2025

查看原文

小图即可：DeepStateGNN 用于可扩展的交通预测

作者: Yannick W\"olker, Arash Hajisafi, Cyrus Shahabi, Matthias Renz

arXiv:2502.14525v1 宣告类型: cross 摘要: 我们提出了一种新的图神经网络（GNN）模型，名为 DeepStateGNN，用于分析交通数据，展示了其在两个关键任务中的有效性：预测和重构。与传统GNN方法将每个交通传感器视为独立的图节点不同，DeepStateGNN 根据多种相似性标准将传感器聚类为更高层次的图节点，称为 Deep State Nodes，从而形成固定数量的节点的 Deep State 图。术语“Deep State”节点是一种文字游戏，参考隐秘的权力网络，这些节点像这些网络一样，在不依赖可见传感器的情况下独立地管理交通。这些 Deep State Nodes 通过多个相似性因素定义，包括空间接近性（例如，道路上相邻的传感器），功能性相似性（例如，类似类型的高速公路上的传感器），以及在特定条件下行为相似性（例如，在雨天时的交通行为）。这种聚类方法允许动态和适应性节点分组，因为传感器可以属于多个集群，并且集群可以随时间演变。我们的实验结果表明，DeepStateGNN 提供了更高水平的可扩展性和更快的训练速度，同时在准确度方面也优于竞争对手。它有效地处理了大规模传感器网络，在交通预测和重构准确性方面均优于其他方法。

发布时间: 2/21/2025

查看原文

逐层逐头视觉令牌剪枝以提高高效大型视觉-语言模型性能

作者: Yu Meng, Kaiyuan Li, Chenran Huang, Chen Gao, Xinlei Chen, Yong Li, Xiaoping Zhang

arXiv:2502.14504v1 交叉发布公告类型摘要：大规模多模态视觉-语言模型（LVLMs）在多种多模态任务中展现了卓越的能力。然而，由于在解码过程中处理了大量的视觉标记，其推理效率受到限制。为了应对这一挑战，我们提出了Per-Layer Per-Head Vision Token Pruning (PLPHP)，这是一种两层精细剪枝方法，包括逐层保留率分配和逐头视觉标记剪枝。受解码层间视觉标记重注意现象的启发，我们逐层动态调整标记保留率。表现出较强视觉信息注意力的层保留更多视觉标记，而视觉注意力较低的层则被剧烈剪枝。此外，PLPHP在注意力头级别进行剪枝，使得同一层内的不同头能够独立保留关键上下文。在多个基准测试上的实验表明，PLPHP在保持0.46%平均性能下降的同时，提供了18%更快的解码速度，并且使Key-Value缓存（KV缓存）大小减少了超过50%，同时在多张图像任务中也取得了显著的性能提升。这些结果突显了精细粒度标记剪枝的有效性，有助于提高LVLMs的效率和可扩展性。我们的源代码将公开发布。

发布时间: 2/21/2025

查看原文

MLGym：一个新的框架和基准，用于推动AI研究代理的发展

作者: Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu

arXiv:2502.14499v1 Announce Type: cross 摘要：我们介绍了Meta MLGym和MLGym-Bench，这是一种新的框架和基准，用于评估和开发在AI研究任务上工作的LLM代理。这是第一个用于机器学习（ML）任务的Gym环境，使研究能够针对训练此类代理的强化学习（RL）算法进行研究。MLGym-Bench包括来自计算机视觉、自然语言处理、强化学习和博弈论等多个领域共计13项多样且开放的AI研究任务。解决这些任务需要实际的AI研究技能，如生成新想法和假设、创建和处理数据、实现ML方法、训练模型、运行实验、分析结果以及通过此过程迭代以改进给定任务。我们使用了诸如Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview和Gemini-1.5 Pro等前沿大型语言模型（LLMs）上的基准测试。我们的MLGym框架使得添加新任务、集成和评估模型或代理、大规模生成合成数据以及为在AI研究任务上训练代理开发新的学习算法变得容易。我们发现当前的前沿模型通常可以通过找到更好的超参数来改进给定的基线，但并未产生新的假设、算法、架构或重大改进。我们将我们的框架和基准开源，以便促进未来研究，以提高LLM代理的AI研究能力。

发布时间: 2/21/2025

查看原文

时间对齐偏差与概率神经元

作者: Velibor Bojkovi\'c, Xiaofeng Wu, Bin Gu

arXiv:2502.14487v1 交叉类型：公告摘要：突触神经网络（SNNs）通过模拟生物神经原理，提供了一种比人工神经网络（ANNs）更具能效的替代方案，使它们成为缓解大规模神经网络不断增加的能量需求的一个有前景的方法。然而，完全发挥SNNs的能力仍然具有挑战性，因为它们的离散信号处理和时间动态特征。ANN-SNN转换作为一种实用的方法已经出现，使SNNs能够在复杂的机器学习任务中获得竞争力的性能。在本文中，我们识别出ANN-SNN转换框架中的一个现象，称为时间不对齐，其中SNN层之间随机突触重排会导致性能提升。基于这一观察，我们引入了一种生物可实现的两阶段概率（TPP）突触神经元，进一步增强了转换过程。我们通过在CIFAR-10/100、CIFAR10-DVS和ImageNet等多种架构上进行全面实验，从理论和实证两个方面展示了我们提出的方法的优势，实现了最先进的结果。

发布时间: 2/21/2025

查看原文

如何实现脱逃防御并进行集成？一种机理研究

作者: Zhuohang Long, Siyuan Wang, Shujun Liu, Yuhang Lai, Xuanjing Huang, Zhongyu Wei

arXiv:2502.14486v1 安全类型：跨越摘要： Jailbreak 攻击，其中有害的提示绕过了生成模型内置的安全性，引发了模型脆弱性的严重关切。尽管已经提出了许多防御方法，但安全性与帮助性之间的权衡，以及这些方法在大型视觉-语言模型（LVLMs）中的应用还不甚明确。本文系统地研究了 jailbreak 防御方法，通过将标准生成任务重新定义为二元分类问题来评估模型对有害和良性查询的拒绝倾向。我们识别出两种关键的防御机制：安全转移，它在整个查询中增加了拒绝率；以及有害性鉴别，它提高了模型区分有害和良性输入的能力。利用这些机制，我们开发了两种集成防御策略——机制内集成和机制间集成，以平衡安全性和帮助性。LLaVA-1.5 模型在 MM-SafetyBench 和 MOSSBench 数据集上的实验证明，这些策略有效提升了模型的安全性或优化了安全性和帮助性之间的权衡。

发布时间: 2/21/2025

查看原文

使用大型语言模型增强具有情境意识的聊天机器人以改善智能环境

作者: Aurora Polo-Rodr\'iguez, Laura Fiorini, Erika Rovini, Filippo Cavallo, Javier Medina-Quero

arXiv:2502.14469v1 宣告类型: cross 摘要: 本文提出了一种新颖的架构，用于智能环境中的上下文感知交互，利用大型语言模型（LLMs）来提升用户体验。我们的系统将通过UWB标签和传感器装备的智能家居获取到的用户位置数据与实时人类活动识别（HAR）相结合，提供对用户上下文的全面理解。然后，这些上下文信息被输送到一个由LLM驱动的聊天机器人中，使其能够基于用户的当前活动和环境生成个性化的交互和推荐。这种方法超越了传统的静态聊天机器人交互，能够动态适应用户的实时情况。从真实数据集进行的一项案例研究证实了我们提出架构的可行性和有效性，展示了其在智能家居中创造更具直观性和帮助性的交互的潜力。结果突显了将LLM与实时活动和位置数据结合使用以提供个性化和上下文相关用户体验的显著益处。

发布时间: 2/21/2025

查看原文