arXiv:2502.10047v1 宣布类型: cross
摘要:视觉变换器(ViTs)已经在各种计算机视觉任务中超越了传统的卷积神经网络架构,并实现了最先进的结果。由于ViTs计算成本高昂,这些模型要么只能在资源受限的边缘设备上进行剪枝运行,要么在接收通过波动网络传输的原始数据后,在远程云服务器上执行。由此导致的性能下降或高延迟都阻碍了它们的广泛应用。在本文中,我们提出了Janus,这是第一个用于动态网络上云-设备协作视觉变换器推理的低延迟框架。Janus克服了ViTs固有的模型限制,并实现了在云和边缘设备上协同执行ViT模型,实现了低延迟、高精度和低通信开销。具体来说,Janus巧妙地结合了令牌剪枝技术,并且采用了一个精心设计的从细到粗的模型拆分策略和非静态混合剪枝策略。它通过动态选择最优的剪枝级别和拆分点来在准确性和延迟之间取得平衡。在各种任务中的实验结果表明,与基线方法相比,在各种网络环境中,Janus的吞吐量提高了最多5.15倍,并且可将延迟违反比率降低高达98.7%。
arXiv:2502.09990v1 类别: cross
摘要: 尽管语言模型(LLMs)的安全对齐技术取得了快速发展,但防范多轮脱缰攻击仍然是一项具有挑战性的任务。在这篇论文中,我们进行了全面的比较,揭示了一些现有的防御方法可以提高LLMs在面对多轮脱缰攻击时的鲁棒性,但以牺牲可用性为代价,即降低一般能力或导致过度拒绝问题。从语言模型机制解释性的角度来看,我们发现这些方法未能建立一个精确区分安全和有害特征表示的边界。因此,接近有害表示的边界安全表示不可避免地会被破坏,导致可用性下降。为了解决这一问题,我们提出了X-Boundary来将有害表示推离边界安全表示,获得一个准确的区分边界。这样,可以精确地删除有害表示而不影响安全表示。实验结果表明,X-Boundary在对抗多轮脱缰攻击方面实现了最先进的防御性能,同时将过度拒绝率降低了约20%,并保持了几乎完全的一般能力。此外,我们从理论上证明并实证验证了X-Boundary可以在训练过程中加速收敛过程。请查阅我们的代码:https://github.com/AI45Lab/X-Boundary。
arXiv:2502.09977v1 类别: cross
摘要: 有效地将外部知识整合到大型语言模型(LLMs)中对于增强其功能并满足实际需求至关重要。检索增强生成(RAG)通过检索最相关的片段到LLMs中提供了一种有效的方法。然而,LLMs的上下文窗口大小的进步提供了一种替代方法,引发了一个问题,即RAG是否仍然有必要有效处理外部知识。现有的一些研究在RAG和长上下文(LC)LLMs之间提供了不具结论性的比较,主要原因是基准设计的限制。在本文中,我们介绍了LaRA,这是一种全新的基准,专门设计用于严格比较RAG和LC LLMs。LaRA涵盖了四个实际问答任务类别和三种自然生成的长文本类型中的2,326个测试案例。通过对七种开源和四种私有LLMs的系统评估,我们发现RAG和LC之间的最优化选择取决于多种因素的复杂互动,包括模型的参数量、长文本能力、上下文长度、任务类型以及检索片段的特点。我们的发现为从业者提供了实用的指南,以有效利用RAG和LC方法在开发和部署LLM应用中。我们的代码和数据集可在以下链接获取:\href{https://github.com/likuanppd/LaRA}{https://github.com/likuanppd/LaRA}。
arXiv:2502.09971v1 交叉公告类型:cross
摘要:在本文中,我们研究了如何从外部字典合成一个动态参考,以在潜在域中对输入图像进行条件编码,并探讨如何以端到端的方式学习条件潜在合成和编码模块。我们的方法始于使用多阶段方法构建一个通用的图像特征字典,该方法包括修改后的空间金字塔池化、维数降低和多尺度特征聚类。对于每个输入图像,我们学习通过从字典中选择和合成相关的特征来合成条件潜在变量,这显著增强了模型捕获和探索图像源相关性的能力。这种条件潜在变量合成涉及基于相关性的特征匹配和对齐策略,包括一个条件潜在匹配(CLM)模块和一个条件潜在合成(CLS)模块。合成的潜在变量随后用于引导编码过程,通过利用输入图像与参考字典之间的相关性来实现更高效的压缩。根据我们的理论分析,所提出的条件潜在编码(CLC)方法对外部字典样本和选定的条件潜在变量的扰动具有鲁棒性,其误差上限与字典大小呈对数关系,即使使用大量和多样化的字典也能确保稳定性。基准数据集上的实验结果显示,与现有方法相比,我们的新方法在编码性能上有显著提高(最多可达1.2 dB),并且仅需很小的额外开销,约为每像素0.5%的比特数。我们的代码已在 https://github.com/ydchen0806/CLC 公开发行。
arXiv:2502.09969v1 类型: cross
摘要:影响函数为模型训练提供了关键性的见解,但现有的方法面临着巨大的计算成本和有限的泛化能力。尤其是,最近的工作提出了各种指标和算法来计算数据的影响,这些方法在面对大规模模型和数据集时扩展性较差。这是因为计算过程中需要昂贵的前向和反向传播,存储大型模型所需的大量内存要求,以及影响估计在新数据上的糟糕泛化能力。在本文中,我们探索了使用小型神经网络(我们称之为InfluenceNetwork)来估计影响值,实现了高达99%的成本减少。我们的评估表明,影响值可以用仅仅是完整语言模型0.0027%大小的模型进行估计(我们使用了7B和8B版本)。我们将估计影响值的算法(称为NN-CIFT:用于高效指令微调的神经网络)应用于通用指令微调的子集选择下游任务。在我们的研究中,我们包括了四种最先进的影响函数,并展示了在NN-CIFT和原始影响函数之间,即使有着显著的速度提升,性能也无任何妥协。我们对NN-CIFT的超参数进行了深入分析。我们的方法的代码可以在这里找到:https://github.com/agarwalishika/NN-CIFT。
arXiv:2502.09956v1 基础模型类型:跨领域
摘要:对知识图谱(KGs)构建基础模型的兴趣最近凸显了一个根本性的挑战:知识图谱数据相对匮乏。已知的最好知识图谱主要是由人类标注的、通过模式匹配创建的,或者通过早期的NLP技术提取的。虽然人类生成的知识图谱稀缺,但自动提取的知识图谱质量存疑。我们提出了一种解决这一数据匮乏问题的方法,即一种文本到知识图谱生成器(KGGen),这是一种使用语言模型从纯文本创建高质量图谱的软件包。与其他的知识图谱提取器不同,KGGen通过聚类相关实体来减少提取知识图谱的稀疏性。KGGen 可以作为Python库(通过`pip install kg-gen`安装)使用,使其对所有人都是可访问的。除了KGGen之外,我们还发布了首个基准测试,即节点和边的信息量度量(MINE),该测试评估提取器从纯文本生成有用知识图谱的能力。我们用新工具对现有提取器进行了基准测试,并展示了显著优越的性能。
arXiv:2502.09952v1 交叉公告类型
摘要:中国嫦娥五号任务取得了显著的成功,嫦娥五号着陆器前往风暴洋地区采集月球表面的图像。在过去半个世纪里,人们带回了一些月球岩石样本,但数量不足以满足研究需求。在目前的情况下,人们主要依赖月球车对月球表面岩石的探测进行分析。嫦娥五号任务选择的风暴洋区域包含多种类型的岩石。因此,我们向中国科学院国家天文台申请了月球表面图像的导航和地形相机(NaTeCam),并建立了月球表面岩石图像数据集CE5ROCK。该数据集包含100张图像,随机分为训练集、验证集和测试集。实验结果表明,类似AlexNet或MobileNet的卷积神经网络(CNN)模型的识别准确率约为40.0%。为了充分利用月球图像中的全局信息,本文提出了MRNet(MoonRockNet)网络架构。网络的编码结构使用VGG16进行特征提取,解码部分在原始VGG16解码结构上增加了膨胀卷积和常用的U-Net结构,更有利于识别更为精细但却更为分散的月球岩石类型。我们在建立的CE5ROCK数据集上进行了广泛的实验,实验结果表明,MRNet可以实现更准确的岩石类型识别,并在识别性能上超越了其他现有主流算法。
arXiv:2502.09931v1 类型:交叉
摘要:跳连接工程主要用来解决编码器与解码器之间的语义差距,同时整合全局依赖关系以理解医学图像分割中复杂解剖结构之间的关系。虽然已有模型提出了基于变换器的方法来在跳连接中引入全局依赖关系,但它们往往在高计算复杂性下难以捕捉详细的局部特征。相比之下,图神经网络(GNNs)利用图结构有效地捕捉局部和全局特征。利用这些特性,我们引入了一种注意力跨尺度图神经网络(ACS-GNN),它通过将跨尺度特征图转换为图结构,并通过节点注意力捕捉复杂解剖结构来增强跳接连接框架。此外,我们观察到深度学习模型往往会产生不具有信息量的特征图,这会降低空间注意力图的质量。为了解决这一问题,我们结合熵驱动的功能选择(EFS)与空间注意力,为每个通道计算熵分数,并过滤掉高熵特征图。我们的创新框架TransGUNet包括ACS-GNN和基于EFS的空间注意力,通过结合GNN以及可靠的三维空间注意力图,充分利用GNN的特性来提高在不同模态下的领域泛化能力,确保跳接连接中的更稳健特征。通过全面的实验和分析,TransGUNet在六个已见数据集和八个未见数据集上的分割性能均表现出优越性,并且相比以前的方法具有显著更高的效率。
arXiv:2502.09928v1 Announce Type: cross
摘要:源自量子物理的张量网络(TNs)已被广泛用作指数机器和特征参数分解器,用于识别任务。典型的TN模型,如矩阵乘积态(MPS),尚未在自然图像处理中实现成功应用。在应用时,它们主要用作压缩现成网络参数的工具,从而失去了它们提升特征相互作用的能力。本文介绍了一种新的架构,名为**Deep Tensor Tree Network (DTTN)**,它通过多线性操作捕捉特征之间的 $2^L$ 阶乘法相互作用,同时本质地展开为具有参数共享性质的树形TN拓扑结构。DTTN通过多个反对称相互作用模块(AIMs)堆叠,这种设计使其实现更加高效。此外,我们从理论上揭示了在某些条件下,受量子启发的TN模型与多项式和多线性网络之间的等效性,并相信DTTN可以激发更多可解释的研究。我们对所提出的模型进行了一系列基准测试,并与同类模型和最新架构相比取得了出色表现。我们的代码即将公开。
arXiv:2502.09927v1 通告类型: cross
摘要: 我们提出了一种轻量级的大语言模型——Granite Vision,该模型具备视觉能力,特别设计用于企业应用场景,特别是在视觉文档理解方面表现出色。我们的模型在全面的指令遵循数据集上进行了训练,包括文档相关的任务,如从表格、图表、图表、草图和图表中提取内容,以及一般的图像任务。Granite Vision 的架构以视觉模态对齐为中心,使用了一个仅包含解码器的 20 亿参数大语言模型。此外,我们在测试时引入了一种专用的安全分类方法,该方法利用稀疏的注意力向量来识别潜在有害的输入。尽管其架构轻量,但 Granite Vision 在视觉文档理解相关的标准基准测试以及 LiveXiv 基准测试中都取得了很好的成绩。LiveXiv 基准测试通过使用不断更新的最近发表的 Arxiv 论文语料库来避免测试集污染。我们以 Apache-2 开放许可证发布该模型,允许进行研究和商业使用,并提供了完整的训练数据和其他相关信息的可见性。请参见 https://huggingface.co/ibm-granite/ 获取模型权重。