arXiv:2502.02406v2 交叉注意力类型: 交叉替换
摘要:交叉注意力在多模态大型语言模型(MLLMs)中广泛用于将视觉信息整合到语言骨干中。然而,在处理大量视觉输入的应用中,例如视频理解,交叉注意力层需要处理大量的视觉标记,这导致了高内存需求,并且通常需要在多个GPU上进行分布式计算。现有的分布式注意力机制面临显著的通信开销,使得交叉注意力层成为MLLMs高效训练和推理的关键瓶颈。为了解决这个问题,我们提出了LV-XAttn,这是一种具有最小通信开销的分布式精确交叉注意力机制。我们观察到,在涉及大量视觉输入的应用中,查询块的大小通常远小于键值块的大小。因此,在LV-XAttn中,我们将在每个GPU上保留较大的键值块,并在GPU之间交换较小的查询块。我们还引入了一种高效的激活重新计算技术,以支持更长的视觉上下文。我们从理论上分析了LV-XAttn的通信利益,并展示了它可以在广泛的不同模型上实现加速。我们对mPLUG-Owl3和OpenFlamingo模型的评估发现,LV-XAttn比现有方法实现了高达5.58倍的端到端加速。
arXiv:2502.01693v2 通告类型: replace-cross
摘要:在复杂系统中,信息传播可以被定义为扩散或去本地化、弱局部化和强局部化。本研究探讨了将图神经网络模型应用于网络上的线性动态系统的行为学习。我们开发了一个基于图卷积和注意力机制的神经网络框架,以识别线性动态系统的稳态行为。研究表明,我们的训练模型能够以高精度区分不同的状态。此外,我们还使用真实世界的数据评估了模型性能。为进一步理解模型的可解释性,我们提供了对该框架前向和后向传播的分析推导。
arXiv:2502.01659v2 宣布类型: replace-cross
摘要:Transformer在自然语言处理和生物信息学等多个领域取得了巨大的成功。这一成功源于这些模型通过注意机制来表示和传播序列数据中单个令牌之间的成对相互作用。然而,这一操作的主要限制在于其输入上下文长度(需要捕获相互作用的序列长度)的二次内存和时间复杂度。这极大地限制了这些模型能够推断的序列长度。进行了大量研究,通过引入稀疏性来减少注意机制中的成对相互作用以减少二次关系中的数量。然而,实现“真稀疏性”的高效方法仍然缺乏。
在这项工作中,我们通过将注意机制视为图计算的一种观点来解决这一问题,其中令牌被视为图的节点,注意掩码确定图的边。在此观点下,我们开发了图处理算法来实现注意机制。从理论上和实验上,我们证明了我们的算法仅执行所需的计算,即它们是工作最优的。我们还使用流行的注意掩码进行了广泛的实验,探索稀疏性对执行时间和可实现上下文长度的影响。我们的实验表明,与如FlashAttention等最先进的注意实现相比,在长序列长度下,我们的算法可以显著提高执行时间。我们还证明,我们的算法能够在单个NVIDIA A100 GPU(SXM4 80GB)上实现极长的序列长度,高达1.6亿。
arXiv:2502.01127v3 宣告类型: replace-cross
摘要:当多个影响者试图争夺接收者注意力时,他们的影响策略必须考虑到彼此的存在。我们提出了战斗影响者博弈(BIG),一种多玩家同时决策的一般收益博弈,以提供对该社会现象的博弈论 characterization。我们证明了BIG 是一个潜能博弈,并且它要么只有一个、要么有无限多个纯纳什均衡(NE),这些纯NE可以通过凸优化找到。有趣的是,我们还证明了在任何一个纯NE中,除了最多一个影响者之外,所有其他影响者必须将其行为最大限度地夸张。换句话说,由于影响者预期其他影响者会部分抵消自己的影响,因此对他们来说不诚实和极端是有理性的。我们讨论了BIG 对价值对齐的影响。
arXiv:2502.00182v2 宣布类型: 替换交叉
摘要:随着隐私关注和数据法规的增强,联邦学习(FL)已成为一种在不共享原始数据的情况下跨分布式数据源训练机器学习模型的有前景的方法。然而,在FL中的一项重大挑战是客户端数据通常是非IID(非独立且同分布)的,这导致其性能低于中心化学习。虽然已经提出了许多方法来解决这一问题,但它们的内在机制往往是从不同的角度来观察的。通过对从梯度下降到FL,以及从IID到非IID数据设置进行全面调查,我们发现客户端损失景观中的不一致性主要导致非IID场景下的性能下降。基于这一理解,我们观察到现有的方法可以分为两大类策略:(i) 调整参数更新路径和(ii) 修改客户端损失景观。这些发现为解决FL中非IID挑战提供了清晰的视角,并有助于指导该领域的未来研究。
arXiv:2502.00026v2 宣布类型: 替换交叉
摘要:大型语言模型(LLMs)的大量计算和内存需求阻碍了它们的部署。浮点数块表示(BFP)已被证明在加速线性操作方面非常有效,线性操作是LLM负载的核心。然而,随着序列长度的增长,如注意力这样的非线性操作由于其二次计算复杂性逐渐成为性能瓶颈。这些非线性操作大多使用效率低的浮点格式执行,使得系统难以优化软件效率并减少硬件开销。在本文中,我们探讨了将BFP应用于非线性操作的限制和潜力。根据我们的发现,我们引入了一个硬件软件协同设计框架(DB-Attn),包括:(i) DBFP,一种改进的BFP版本,通过多样数据的枢轴聚焦策略和灵活的指数共享策略来克服非线性操作挑战。(ii) DH-LUT,一种专门用于加速DBFP格式下非线性操作的新查找表算法。(iii) 在RTL级别实现基于DBFP的引擎,适用于FPGA和ASIC。结果显示,DB-Attn在显著性能提升的同时几乎不损失精度,在LLaMA的Softmax上实现了74%的GPU加速,并且比现有最佳设计具有10倍的低开销性能提升。
arXiv:2501.18624v2 通知类型: 替换交叉
摘要:基于预训练视觉编码器和大型语言模型(LLMs)的视觉-语言模型(VLMs)在多模态理解和对话能力方面表现出色,定位它们为下一代技术革命的催化剂。然而,尽管大多数VLM研究着重于增强多模态交互,但数据误用和泄露的风险却未被充分探索。这促使我们对VLM中的此类风险进行全面调查。在本文中,我们通过成员推理攻击(MIA)的视角,首次对VLM中的误用和泄露检测进行了分析。具体而言,我们重点关注VLM的指令调优数据,因为这些数据更有可能包含敏感或未授权的信息。为了解决现有MIA方法的局限性,我们引入了一种新的方法,基于样本文本集及其对温度参数的敏感性进行成员推理,温度是VLM中一个独特的参数。基于此,我们提出了四种成员推理方法,每种方法针对不同的背景知识水平,最终到达最具挑战性的场景。我们的全面评估显示,这些方法能够精确确定成员状态,例如,在LLaVA中仅针对5个样本组成的较小集合,达到AUC大于0.8的目标。
arXiv:2501.17479v2 通知类型: 替换-交叉
摘要:大规模语言模型(LLMs)在各种自然语言处理任务中展示了出色的能力,但在多样或复杂的领域中往往难以实现全面卓越。我们提出了一种新颖的集成方法——多样指纹集成(DFPE),该方法结合多个LLM的互补优点以实现更稳健的性能。我们的方法包括:(1)基于响应“指纹”模式对模型进行聚类,(2)应用基于分位数的筛选机制,以在每个主题级别去除表现不佳的模型,以及(3)基于其主题内验证准确性为剩余模型分配自适应权重。在大规模多任务语言理解(MMLU)基准测试中,DFPE的整体准确性和学科级别的准确率分别比最佳单个模型高出3%和5%。该方法提高了LLMs的稳健性和泛化能力,并强调了模型选择、多样性的保持以及基于性能的权重分配如何有效地应对多方面、具有挑战性的语言理解任务。
arXiv:2501.16345v2 通知类型: 替换交叉
摘要: 静息态功能磁共振成像(rs-fMRI)为人类大脑的功能组织提供了宝贵的见解,并且是研究脑功能与认知过程之间关系的强大工具,因为它允许通过功能成像来捕捉脑组织的组织方式,而无需依赖特定任务或刺激。在这项研究中,我们提出了一种新的用于具有子网络的图形的注意力机制,名为自聚类图变换器(Self-Clustering Graph Transformer,SCGT),旨在解决图变换器中节点均匀更新的问题。通过对变换器模型输入静态功能连接(FC)相关特征,SCGT 可以通过针对子节点群进行特定更新来有效捕捉大脑的子网络结构,这与普通图变换器中的均匀节点更新不同,进一步使我们能够学习和解释子集群。我们在 Adolescent Brain Cognitive Development(ABCD)数据集中进行了验证,该数据集包含7,957名参与者,用于预测总认知分数和性别分类。我们的结果表明,SCGT 在性能上超过了普通图变换器方法和其他最近的模型,为建模脑功能连接及其潜在子网络结构的解释提供了有前途的工具。
arXiv:2501.14940v3 安全公告类型: 替换-交叉
摘要:让大规模语言模型(LLMs)与人类价值观相一致是其安全部署和广泛采用的关键。当前的LLM安全基准通常仅关注对个体问题的拒绝,这忽视了查询发生的上下文的重要性,并且可能导致在安全上下文中错误地拒绝查询,从而损害用户体验。为解决这一差距,我们引入了CAS-E-Bench,这是一种上下文感知安全基准,将上下文纳入对LLM的安全评估中。CAS-E-Bench根据上下文完整性理论,为归类的查询分配不同的、正式描述的上下文。此外,与之前的大多数研究主要依赖少数几个注释者的多数投票不同,我们根据功效分析招募了足够的注释者以确保在实验条件下检测到统计显著差异。通过对各种开源和商业LLM的广泛分析使用CAS-E-Bench揭示了上下文对人类判断有显著影响(从z检验结果来看,p<0.0001),强调了在安全性评估中考虑上下文的必要性。我们还识别出,在安全上下文中,人类判断与LLM响应之间存在显著的不一致,特别是在商业模型中。