Mamba 和 Vision Mamba (Vim) 模型已展现出作为 Transformer 架构方法替代方案的潜力。本研究介绍了视觉快速 Mamba (Famba-V),一种跨层令牌融合技术,旨在提高 Vim 模型的训练效率。Famba-V 的关键思想是基于一套跨层策略识别和融合不同 Vim 层中的相似令牌,而不是像现有工作那样简单地对所有层进行统一的令牌融合。我们评估了 Famba-V 在 CIFAR-100 上的性能。我们的结果表明,Famba-V 能够通过减少训练时间和训练期间的峰值内存使用来提高 Vim 模型的训练效率。此外,所提出的跨层策略使 Famba-V 能够提供优越的准确性-效率权衡。所有这些结果共同证明了 Famba-V 是一种很有前景的 Vim 模型效率增强技术。
在当前的 NISQ 时代,研究人员和实践者面临的主要挑战之一是如何以最有效和创新的方式将量子计算和经典计算结合起来。本文提出了一种名为“仓库优化问题量子初始化”的机制,该机制利用了 D-Wave 的量子退火器。该模块专门设计为嵌入到现有的用于优化现实世界工业问题的经典软件中。我们通过针对软件的经典版本进行的两阶段实验初步测试了所实现的机制。
零样本协调 (ZSC) 是多智能体协作中的一个重大挑战,旨在开发能够与之前从未遇到过的未知伙伴进行协调的智能体。最近最先进的 ZSC 方法主要集中在双人视频游戏中,例如《煮糊了 2》和《花牌》。本文将 ZSC 研究的范围扩展到多无人机协同追捕场景,探讨如何构建能够与多个未知伙伴协调以捕获多个逃逸者的无人机智能体。我们提出了一种新颖的超图开放式学习算法 (HOLA-Drone),该算法基于我们的超图形式博弈建模不断调整学习目标,旨在提高与多个未知无人机队友的协作能力。为了从经验上验证 HOLA-Drone 的有效性,我们构建了两个不同的未知无人机队友池,以评估它们与各种未知伙伴协调时的性能。实验结果表明,HOLA-Drone 在与未知无人机队友协调方面优于基线方法。此外,现实世界实验验证了 HOLA-Drone 在物理系统中的可行性。视频可在项目主页~\url{https://sites.google.com/view/hola-drone} 上找到。
在设计面向现实世界时间序列分类用例的 AI 服务时,算法选择是一个至关重要的步骤。传统的算法选择方法,如神经网络架构搜索、自动机器学习、组合算法选择和超参数优化,虽然有效,但需要大量的计算资源,并且需要访问所有数据点才能执行优化。本文介绍了一种新颖的数据指纹,它以隐私保护的方式描述任何时间序列分类数据集,并在无需对(未见)数据集进行训练的情况下,为算法选择问题提供洞察。通过分解多目标回归问题,仅使用我们的数据指纹以可扩展和自适应的方式估计算法性能和不确定性。我们在加州大学河滨分校的 112 个基准数据集上评估了我们的方法,证明了其在预测 35 种最先进算法性能方面的有效性,并为时间序列分类服务系统中的有效算法选择提供了宝贵的见解,平均提高了 7.32% 的平均性能估计和 15.81% 的不确定性估计,优于朴素基线。
本研究探讨了将视觉语言模型(VLMs)中的 Transformer 替换为 Mamba,Mamba 是一种最近的结构化状态空间模型(SSM),在序列建模方面表现出良好的性能。我们在受控条件下测试了高达 30 亿参数的模型,结果表明,基于 Mamba 的 VLMs 在字幕生成、问答和阅读理解方面优于基于 Transformer 的 VLMs。然而,我们发现 Transformer 在视觉定位方面取得了更高的性能,并且性能差距随着规模的扩大而扩大。我们探索了两种假设来解释这种现象:1)任务无关的视觉编码对隐藏状态更新的影响,以及 2)从上下文多模态检索的角度来看,执行视觉定位的难度。我们的结果表明,任务感知编码在定位方面产生的性能增益最小,然而,Transformer 在上下文多模态检索方面明显优于 Mamba。总体而言,Mamba 在正确输出依赖于图像摘要的任务中表现出良好的性能,但在需要从上下文中检索显式信息时则难以胜任。
频谱图卷积网络(GCN)在图机器学习应用中越来越受欢迎,部分原因在于其在网络传播规则的指定方面具有灵活性。这些传播规则通常被构造为多项式滤波器,其系数在训练期间使用标签信息学习。与学习到的多项式滤波器相比,显式滤波器函数在捕获网络拓扑结构和标签在整个网络中的分布之间的关系方面很有用。已经提出了一些结合这两种方法的算法;然而,滤波器函数和多项式近似之间的关系尚未完全解决。这主要是由于必须求解以推导出滤波器函数的多项式近似值的线性系统的病态性质。为了解决这一挑战,我们提出了一种新颖的基于阿诺尔迪正交化的算法,以及一种称为 G-Arnoldi-GCN 的统一方法,可以有效地用多项式逼近给定滤波器函数。我们在十个具有不同拓扑特征的数据集上,在多类节点分类的背景下评估了 G-Arnoldi-GCN。我们的实验表明,当使用合适的滤波器函数时,G-Arnoldi-GCN 始终优于最先进的方法。总体而言,G-Arnoldi-GCN 通过允许显式设计和应用不同的滤波器函数,为图机器学习开辟了重要的新方向。代码链接:https://github.com/mustafaCoskunAgu/GArnoldi-GCN
我们观察到 LLaMA3/3.1-70B 模型中存在一种独特的量化相关行为,而在 LLaMA2-70B 和 LLaMA3/3.1/3.2-1B/3B/8B/405B 模型中则不存在这种行为。量化是高效部署大型语言模型 (LLM) 的一项重要技术。W8A8 训练后量化对模型精度的影响,尤其是在最近发布的 LLaMA3/3.1 模型系列中,仍然存在争议。本文探讨了三个关键问题:是什么使 LLaMA3-70B 模型系列对量化特别敏感?为什么会出现这种情况?如何解决这个问题?我们对开放式 LLM 排行榜上的多个 LLM 进行了实证研究,发现 LLaMA3-70B 模型系列在使用 W8A8 每通道训练后量化时,存在独特的精度下降行为。相比之下,其他模型系列,如 LLaMA2、LLaMA3/3.1-8B、LLaMA3.2、Qwen、Mixtral、Mistral、Phi-3 和 Falcon,在使用 W8A8 时表现出稳健的性能。与之前将精度下降归因于激活的大动态范围的说法相反,我们的研究结果表明,LLaMA3-70B 的权重分布是导致这种脆弱性的主要因素。通过仔细分析跨 Transformer 模块的权重分布的独特特征,我们提出了两种解决方案,它们在硬件/软件开销方面做出了不同的权衡。首先,我们提出了一种混合策略,其中不到 3% 的层采用更精细的每组 W8A8 量化粒度。其次,我们引入了一种双平滑策略,在权重和激活之间平衡量化误差,同时保持整个模型的每通道量化。实验结果表明,这两种策略都能有效地保留整个 LLaMA3-70B 模型系列在 W8A8 量化下的精度,达到与其 FP16 版本相当的性能。
语义分割是自动驾驶中一项重要的感知任务,但它面临着对抗样本的风险。近年来,深度学习逐渐从参数相对较少的卷积神经网络 (CNN) 模型过渡到参数数量庞大的基础模型。Segment Anything Model (SAM) 是一种通用的图像分割框架,能够处理各种类型的图像,并能够识别和分割图像中的任意物体,而无需针对特定物体进行训练。它是一个统一的模型,可以处理各种下游任务,包括语义分割、目标检测和跟踪。在自动驾驶的语义分割任务中,研究 SAM 的零样本对抗鲁棒性具有重要意义。因此,我们对 SAM 的鲁棒性进行了系统的实证研究,无需额外的训练。根据实验结果,SAM 在黑盒腐蚀和白盒对抗攻击下的零样本对抗鲁棒性是可以接受的,即使不需要额外的训练。这项研究的发现具有启发性,即庞大的模型参数和海量的训练数据导致了涌现现象,从而保证了对抗鲁棒性。SAM 是一种视觉基础模型,可以被视为通用人工智能 (AGI) 管道的早期原型。在这种管道中,一个统一的模型可以处理各种任务。因此,这项研究不仅考察了视觉基础模型对安全自动驾驶的影响,也为开发可信的 AGI 提供了视角。代码可在以下地址获取:https://github.com/momo1986/robust_sam_iv.
开发具有稳健群体公平特性的模型至关重要,尤其是在医疗诊断等伦理敏感领域。近年来,在机器学习中实现公平性的方法需要大量的训练数据,并且依赖于模型重新训练,这在现实场景中可能不切实际。为了缓解这些挑战,我们提出了基于偏差的权重掩蔽微调 (BMFT),这是一种新颖的后处理方法,可以在显著减少的训练周期内提高已训练模型的公平性,而无需访问原始训练数据。BMFT 在模型参数上生成一个掩码,该掩码可以有效地识别对偏差预测贡献最大的权重。此外,我们提出了一种两步去偏策略,其中特征提取器在识别出的偏差影响权重上进行初始微调,随后在重新初始化的分类层上进行微调以维持判别性能。在四个皮肤病数据集和两个敏感属性上的大量实验表明,BMFT 在诊断准确性和公平性指标方面均优于现有的最先进 (SOTA) 技术。我们的发现强调了 BMFT 在推进各种非分布 (OOD) 设置中的公平性方面的有效性和稳健性。我们的代码可在以下地址获得:https://github.com/vios-s/BMFT
大型语言模型(LLM)可用于分析来自网络犯罪论坛的网络威胁情报(CTI)数据,这些数据包含有关新兴网络威胁的广泛信息和关键讨论。然而,迄今为止,LLM 在此类关键任务中的准确性和效率水平尚未得到彻底评估。因此,本研究评估了基于 OpenAI GPT-3.5-turbo 模型 [8] 构建的 LLM 系统提取 CTI 信息的性能。为此,从三个网络犯罪论坛 - XSS、Exploit_in 和 RAMP - 中提取了超过 700 次每日对话的随机样本,并指示 LLM 系统总结对话并预测 10 个关键 CTI 变量,例如是否正在针对大型组织和/或关键基础设施,仅使用简单的自然语言指令。然后,两名编码员审查了每次对话,并评估了 LLM 提取的信息是否准确。LLM 系统表现良好,平均准确率为 96.23%,平均精确率为 90%,平均召回率为 88.2%。发现了增强模型的多种方法,例如需要帮助 LLM 区分故事和过去事件,以及在提示中注意动词时态。然而,本研究的结果突出了使用 LLM 进行网络威胁情报的相关性。