联邦学习 (FL) 是一种分布式机器学习方法,通过在设备上本地训练 AI 模型来解决隐私问题。去中心化联邦学习 (DFL) 扩展了 FL 范式,通过消除中央服务器来增强可扩展性和鲁棒性,避免单点故障。然而,DFL 在优化安全性方面面临着重大挑战,因为文献中提出的大多数拜占庭鲁棒算法都是为集中式场景设计的。在本文中,我们提出了一种新颖的拜占庭鲁棒聚合算法,以增强去中心化联邦学习环境的安全性,名为 WFAgg。该方案通过使用多个过滤器来识别和缓解拜占庭攻击,同时处理动态去中心化拓扑的恶劣条件和强度鲁棒性。实验结果表明,该算法在存在各种拜占庭攻击场景的情况下,在保持模型准确性和收敛性方面非常有效,优于最先进的集中式拜占庭鲁棒聚合方案(例如 Multi-Krum 或 Clustering)。这些算法在集中式和去中心化场景中对 IID 图像分类问题进行了评估。
相机-激光雷达融合模型显著提高了自动驾驶中的感知性能。融合机制利用了每种模态的优势,同时最大限度地减少了它们的弱点。此外,在实践中,相机-激光雷达融合模型利用预训练的主干网络进行高效训练。然而,我们认为,直接将单模态预训练的相机和激光雷达主干网络加载到相机-激光雷达融合模型中,由于融合机制的性质,会在模态之间引入类似的特征冗余。不幸的是,现有的剪枝方法是专门为单模态模型开发的,因此,它们难以有效地识别相机-激光雷达融合模型中的这些特定冗余参数。在本文中,为了解决上述关于相机-激光雷达融合模型的问题,我们提出了一种新颖的剪枝框架——**替代模态掩蔽剪枝**(AlterMOMA),该框架对每个模态采用替代掩蔽,并识别冗余参数。具体来说,当一种模态参数被掩蔽(停用)时,来自被掩蔽主干网络的特征缺失迫使模型重新激活另一种模态主干网络中先前冗余的特征。因此,这些冗余特征和相关的冗余参数可以通过重新激活过程来识别。冗余参数可以通过我们提出的重要性评分评估函数——**替代评估**(AlterEva)来剪枝,该函数基于当某些模态参数被激活和停用时损失变化的观察结果。在包含各种任务、基线模型和剪枝算法的nuScene和KITTI数据集上的大量实验表明,AlterMOMA优于现有的剪枝方法,并取得了最先进的性能。
大型语言模型(LLM)已在众多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法...
大型语言模型 (LLM) 在各种应用中的激增突出了对健壮安全措施的迫切需求,以阻止潜在的越狱攻击。这些攻击利用 LLM 中的漏洞,危害数据完整性和用户隐私。护栏作为抵御此类威胁的关键保护机制,但现有模型在检测准确性和计算效率方面往往存在不足。本文主张在 LLM 上进行越狱攻击预防的重要性,并强调输入护栏在保护这些模型中的作用。我们介绍了 MoJE(混合越狱专家),这是一种新颖的护栏架构,旨在超越现有最先进护栏的当前局限性。通过采用简单的语言统计技术,MoJE 在检测越狱攻击方面表现出色,同时在模型推理期间保持最小的计算开销。通过严格的实验,MoJE 表明了优越的性能,能够检测到 90% 的攻击,而不会影响良性提示,从而增强了 LLM 抵御越狱攻击的安全性。
本文介绍了 MIO,一种基于多模态标记的新型基础模型,能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。虽然大型语言模型 (LLMs) 和多模态大型语言模型 (MM-LLMs) 的出现通过其多功能性推动了通用人工智能的进步,但它们仍然缺乏真正的任何到任何的理解和生成能力。最近,GPT-4o 的发布展示了任何到任何 LLMs 在复杂现实世界任务中的巨大潜力,使图像、语音和文本能够进行全方位输入和输出。然而,它是闭源的,不支持生成多模态交织序列。为了解决这一差距,我们提出了 MIO,它是在使用因果多模态建模的四种模态的离散标记混合上训练的。MIO 经历了四个阶段的训练过程:(1) 对齐预训练,(2) 交织预训练,(3) 语音增强预训练,以及 (4) 在各种文本、视觉和语音任务上的全面监督微调。我们的实验结果表明,与以前的双模态基线、任何到任何模型基线,甚至模态特定基线相比,MIO 表现出具有竞争力,在某些情况下甚至更优越的性能。此外,MIO 展示了其任何到任何功能固有的高级功能,例如交织视频-文本生成、视觉思维链推理、视觉指南生成、指令图像编辑等。
通过经验风险最小化训练的深度神经网络在不同群体之间往往表现出显著的性能差异,尤其是在群体标签和任务标签存在虚假相关性时(例如,“草地背景”和“奶牛”)。现有的旨在解决此问题的偏差缓解方法通常依赖于群体标签进行训练或验证,或者需要大量的超参数搜索。这些数据和计算要求阻碍了这些方法的实际部署,尤其是在数据集过大而无法进行群体标注、计算资源有限以及模型通过已经很复杂的管道进行训练的情况下。本文提出了一种针对性增强偏差缓解方法(TAB),该方法是一个简单的无超参数框架,利用辅助模型的整个训练历史来识别虚假样本,并生成一个群体平衡的训练集,从中可以训练一个鲁棒的模型。我们证明了 TAB 在没有任何群体信息或模型选择的情况下提高了最差群体性能,优于现有方法,同时保持了整体准确性。
图编辑距离 (GED) 用于衡量两个给定图之间的(不)相似度,其定义为将一个图转换为另一个图所需的最小成本编辑序列。然而,精确计算 GED 是 NP-Hard 问题,这近年来促使人们设计用于 GED 估计的神经方法。然而,这些方法并没有明确地考虑不同成本的编辑操作。为了解决这个问题,我们提出了 GRAPHEDX,这是一种神经 GED 估计器,它可以处理为四种编辑操作(即边删除、边添加、节点删除和节点添加)指定的通用成本。我们首先将 GED 表示为一个二次分配问题 (QAP),该问题包含这四种成本。然后,我们将每个图表示为一组节点和边嵌入,并使用它们来设计一系列神经集合差异代理。我们将对应于每个操作的 QAP 项替换为它们的代理。计算这种神经集合差异需要对两个图的节点和边进行对齐。我们使用 Gumbel-Sinkhorn 置换生成器来学习这些对齐,并确保节点和边对齐彼此一致。此外,这些对齐不仅考虑节点对之间边是否存在,还考虑边是否不存在。在各种编辑成本设置下,对多个数据集进行的实验表明,在预测误差方面,GRAPHEDX 始终优于最先进的方法和启发式方法。
属性之间的依赖关系是表格数据中常见的现象。然而,现有的表格数据生成算法在生成合成数据时是否保留了这些依赖关系,还有待探索。除了现有的函数依赖关系的概念,本文还引入了属性之间逻辑依赖关系的概念。此外,我们提供了一种度量方法来量化表格数据中属性之间的逻辑依赖关系。利用这种度量方法,我们比较了几种最先进的合成数据生成算法,并测试了它们在几个公开可用的数据集上保留逻辑和函数依赖关系的能力。我们证明了目前可用的合成表格数据生成算法在生成合成数据集时并没有完全保留函数依赖关系。此外,我们还表明,一些表格合成数据生成模型可以保留属性之间的逻辑依赖关系。我们对最先进技术的回顾和比较揭示了开发特定于任务的合成表格数据生成模型的研究需求和机遇。
## 摘要
**引言:** 药物处方通常以自由文本的形式出现,包含两种语言的混合、本地品牌名称以及各种特有的格式和缩写。大型语言模型 (LLMs) 在响应输入提示生成文本方面展现出巨大的潜力。我们利用 ChatGPT 3.5 自动构建和扩展出院小结中的药物陈述,从而使其更容易被人和机器理解。
**方法:** 我们在零样本和少样本设置下,使用不同的提示策略,应用命名实体识别 (NER) 和文本扩展 (EX)。我们手动标注和整理了 100 个药物陈述。使用严格匹配和部分匹配来衡量 NER 的性能。对于 EX 任务,两位专家通过评估原始陈述和扩展陈述之间的语义等效性来解读结果。模型性能通过精确率、召回率和 F1 分数来衡量。
**结果:** 对于 NER,性能最佳的提示在测试集中达到了平均 F1 分数 0.94。对于 EX,少样本提示在其他提示中表现出优异的性能,平均 F1 分数为 0.87。
**结论:** 我们的研究表明,使用 ChatGPT 在自由文本药物陈述中进行 NER 和 EX 任务可以取得良好的性能。与零样本基线相比,少样本方法避免了系统出现幻觉,这在处理与安全相关的药物数据时是不可接受的。
声音事件检测 (SED) 中的一项重大挑战是有效利用未标记数据,因为由于高昂的标注成本,标记数据的可用性有限。半监督算法依赖于标记数据从未标记数据中学习,其性能受限于前者的质量和大小。在本文中,我们介绍了基于原型的掩蔽音频模型 (PMAM) 算法,用于 SED 中的自监督表示学习,以更好地利用未标记数据。具体来说,语义丰富的帧级伪标签是通过基于高斯混合模型 (GMM) 的原型分布建模构建的。这些伪标签监督基于 Transformer 的掩蔽音频模型的学习,其中采用了二元交叉熵损失而不是广泛使用的 InfoNCE 损失,以提供来自不同原型的独立损失贡献,这在现实场景中很重要,在现实场景中,多个标签可能适用于无监督数据帧。最后阶段使用少量标记数据进行微调,可以生成性能非常高的 SED 模型。在使用 DESED 任务进行的同类测试中,我们的方法实现了 62.5% 的 PSDS1 分数,超过了当前最先进的模型,证明了所提技术优越性。