arXiv:2501.14577v2 宣传类型: 替换交叉
摘要:近年来,Transformer 成为序列建模架构中的基本构建块。然而,在其核心是使用自注意力机制,其内存和计算成本随序列长度 \(N\) 呈平方增长,使得在长序列上变得极其昂贵。一种有前景的方法是 top-\(k\) 注意力,它只选择最相关的 \(k\) 个 token,并在显著减少空间和计算需求的同时,实现了类似于常规自注意力的性能。然而,因果掩码要求当前查询 token 只能关注过去的 token,这阻止了现有 top-\(k\) 注意力方法能够并行高效地搜索最相关的 token,从而限制了训练效率。在本文中,我们提出了 ZETA,利用 \(\textbf{Z}\)-Order 曲线进行 \(\textbf{E}\) 高效 \(\textbf{T}\) op-\(\textbf{k}\) \(\textbf{A}\) 注意力,以并行查询整个序列中的 past token。我们首先从理论上表明,键和查询维度的选择涉及维度灾难与投影后相对距离保持之间的权衡。基于这一洞察,我们建议减少键和查询的维度,而不同于值,并进一步利用 \(\textbf{Z}\)-Order 曲线将低维度的键和查询映射到 \(\emph{一}\) 维空间,从而允许并行排序,极大地提高了 top-\(k\) token 选择的效率。实验结果表明,ZETA 在合成的 \textsc{Multi-Query 重组提取} 任务上与标准注意力相当,并且在 \textsc{Long Range 农场} 和 \textsc{WikiText-103} 语言建模上优于注意力及其变种。
arXiv:2501.14346v2 宣布类型: 替换-交叉
摘要:构造适合从连续和离散表格数据中学习的神经网络架构是一项具有挑战性的研究任务。当前的高维表格数据集往往特征实例较少,需要高效的数据学习。我们提出了HorNets(Horn Networks),这是一种在合成和现实世界数据集上表现出色的神经网络架构,这些数据集来源于稀少数据的表格领域。HorNets 基于一种剪裁的多项式样激活函数,通过一个自定义的离散-连续路由机制扩展,该机制根据输入的基数决定优化神经网络的哪个部分。通过显式建模特征组合空间的一部分,或以类似线性注意力的方式结合整个空间,HorNets 动态地决定给定数据最适合的操作模式,无需显式的监督。该架构是少数几种可靠地检索逻辑子句(包括噪声XNOR)并取得最先进的分类性能的方法之一,这些方法适用于14个现实世界的生物医学高维数据集。HorNets 在一个宽松的许可证下免费提供,并配有用于生成分类基准的合成生成器。
arXiv:2501.08046v2 宣告类型: replace-cross
摘要:随着新技术和服务接管现代社会,人工智能(AI)迅速传播。为了防止对人类产生不道德和潜在危险的后果,严格需要对AI的设计、开发和使用进行监管。欧盟(EU)发布了新的法律法规《人工智能法案》,通过采取基于风险的方法来保护人类在与AI互动过程中的安全。与此同时,研究人员提出了人工智能系统的新视角,通常称为以人类为中心的人工智能(HCAI),强调在设计时需要采取以人类为中心的方法。在此背景下,共生人工智能(Symbiotic AI,其是一种HCAI的子类型)通过加深并持续人类智能与AI之间的合作,有望增强人类的能力。本文介绍了系统文献综述(SLR)的结果,旨在识别能够刻画共生人工智能系统设计和开发的原则,并将人类视为过程的核心。通过内容分析,审查过程中得出了四条必须应用于创建能够与人类建立共生关系的人类中心化人工智能系统的原则。此外,还定义了当前趋势和挑战,以指出未来研究中可能需要回答的开放问题,从而指导符合《人工智能法案》的SAI系统的发展。
arXiv:2412.19394v2 Announce Type: replace-cross
摘要:自动回归大规模语言模型(LLMs)在许多现实任务中表现出色。然而,这些LLMs的新范式也暴露了新的威胁。在本文中,我们探讨了它们对推理成本攻击的易感性,恶意用户通过精心构建Engorgio提示来故意增加推理过程的计算成本和延迟。我们设计了Engorgio,这是一种新的方法论,以高效地生成对抗性的Engorgio提示,影响目标LLM的服务可用性。Engorgio有以下两项技术贡献。(1)我们使用参数化的分布来跟踪LLMs的预测轨迹。(2)针对LLMs推理过程的自回归特性,我们提出了新型的损失函数,以稳定地抑制一个特定标记的出现,该标记的出现将中断LLM的生成过程。我们对参数范围从125M到30B的13个开源LLM进行了广泛的实验。结果显示,Engorgio提示可以在白箱场景中成功诱导LLM生成异常长的输出(即,比输出长度限制的90%+约长2-13倍),我们的实际实验进一步证明了Engorgio对LLM服务的威胁,即使在计算资源有限的情况下。代码已发布在:https://github.com/jianshuod/Engorgio-prompt。
arXiv:2412.14538v4 宣布类型: replace-cross
摘要:随着无缝连接和智能通信需求的增长,人工智能(AI)与第六代(6G)通信网络的集成已成为一种转型范式。通过在各种网络层嵌入AI能力,这种集成能够实现资源优化分配、提高效率和增强系统的鲁棒性能,特别是在复杂和动态环境中。本文提供了一个全面的6G网络中AI和通信的概述,重点强调了其基础原理、固有挑战和未来研究机会。首先,我们回顾了在6G背景下AI和通信的集成,探讨了将AI纳入无线通信的驱动因素,以及AI与6G融合的愿景。随后,讨论转向对AI在6G网络中所设想的集成的详细阐述,划分为三个逐步发展的阶段。第一阶段,网络中的AI,专注于利用AI增强网络性能、优化效率和提升用户体验。第二阶段,网络支持AI,强调网络在促进和支持AI操作方面的作用,并介绍了关键使能技术,如用于AI的数字孪生和语义通信。在最后阶段,AI作为服务,预计未来的6G网络将天生提供AI功能作为服务,支持如沉浸式通信和智能工业机器人等应用场景。此外,我们深入分析了AI与6G通信集成所面临的关键挑战。最后,我们列出了有望推动AI和6G通信发展的有前景的未来研究机会。
arXiv:2411.17301v2 通告类型: 替换交叉
摘要:自动放射学报告生成(R2Gen)取得了显著进展,但由于其复杂性,导致了准确评估的挑战。传统评价指标通常因依赖于固定的词匹配或仅专注于病理实体而显得不足,这导致了与人类评估结果的一致性差。为了弥合这一差距,我们引入了ReFINE,这是一种专门针对R2Gen的自动评价指标。我们的指标利用了奖励模型,并通过我们的基于边界的奖励强化损失进行引导,同时还采用了定制化的训练数据设计,使其能够根据用户定义的标准进行个性化评价。它不仅根据用户指定的标准评分报告,还提供了详细的次级评分,增强了可解释性,并允许用户在报告的不同方面之间调整标准。通过利用GPT-4,我们设计了一个易于使用的数据生成流程,使得我们能够基于两个不同的评分系统生成大量的训练数据,其中包含不同质量水平的报告及其相应的评分。然后,通过我们的配对规则将这些由GPT生成的报告配对为接受样品和拒绝样品进行训练,以使大型语言模型(LLM)朝着我们的精细粒度奖励模型进行训练,该模型将更高的奖励赋予高质量的报告。我们的奖励控制损失使该模型能够同时输出多个对应于评价标准数量的个体奖励,其合计值即为我们的最终ReFINE。我们的实验结果表明,ReFINE与人类判断的相关性更高,并且在模型选择方面比传统指标表现更优。值得注意的是,我们的模型不仅提供整体评分,还为每个评价项提供个体评分,增强了可解释性。我们还展示了其在各种评价系统中的灵活训练能力。
arXiv:2411.15927v2 宣告类型: replace-cross
摘要:最近基于大型语言模型的应用中使用的提示往往是固定的且篇幅较长,导致显著的计算开销。为了解决这一挑战,我们提出了一种轻量级的方法生成提示内化(GenPI),该方法采用联合训练方法。GenPI 不仅复制了具有提示输入的模型的行为,还生成了提示的内容以及模型行为为何需要相应变化的原因。我们证明了我们的方法在各种基于代理的应用场景中有效地内化了复杂提示。为了在不与专用环境进行交互的情况下进行有效的训练,我们引入了一种数据合成技术,该技术通过交换代理和环境的角色来自行收集对话数据集。该方法在仅提供预定义提示而没有相应训练数据集的情况下尤其有用。通过内化复杂提示,生成提示内化使高性能和高效推理成为可能,而无需显式的提示。
arXiv:2411.12469v4 宣告类型: replace-cross
摘要:大型语言模型(LLMs)及其多模态变体的最新进展在各个领域取得了显著进展,展示了令人印象深刻的性能和前所未有的潜力。在无处不在的连接时代,利用通信网络分发智能是一种变革性的概念,设想边端设备可访问的AI驱动服务。然而,将大型模型从云端推送到资源受限的环境中面临重大挑战。在低端设备上进行模型推理会导致过多的延迟和性能瓶颈,而在带宽有限的网络上传输原始数据会导致高昂的通信开销。本文提出了一种名为AI Flow的框架,通过联合利用设备、边缘节点和云服务器上可用的异构资源,简化推理过程,使智能在网络中流动。为了促进多个计算节点之间的协作,所提出框架探索了通信网络系统设计范式的转变,从传输信息流转变为传输智能流,其中通信的目标是任务导向的,并且融合到了推理过程中。实验结果通过图像字幕用例展示了所提出框架的有效性,展示了在保持高质量字幕的同时减少响应延迟的能力。本文作为AI Flow的立场文件,阐述了其动机、挑战和原则。
arXiv:2411.09101v2 宣告类型: replace-cross
摘要:视觉变换器(Vision Transformers,简称ViT)最近在计算机视觉领域带来了新的研究浪潮。这些模型在图像分类和分割任务中表现尤为出色。随着新架构的引入,关于语义和实例分割的研究也取得了加速发展,目前iSAID数据集中排名前20的基准中,超过80%的模型采用了ViT架构或其背后的注意力机制。本文着重研究了在遥感航空图像的语义分割上使用(或不使用)ViT的三个关键因素的启发式比较,这些研究是在iSAID数据集上进行的。实验结果分析基于三个目标进行。首先,我们研究了使用加权融合损失函数,以最大化平均交并比(mIoU)和Dice分数,同时最小化熵或类别表示损失。第二,我们比较了基于ViT的语义分割模型Meta的MaskFormer与基于通用UNet卷积神经网络(CNN)的模型在mIoU、Dice分数、训练效率和推理时间方面的表现。第三,我们探讨了这两种模型在与当前最先进的分割模型比较时的权衡。结果显示,新颖的加权融合损失函数显著提升了CNN模型的性能,超过了采用ViT进行迁移学习的效果。该实现的代码可以在以下网址找到:https://github.com/ashimdahal/ViT-vs-CNN-Image-Segmentation。
arXiv:2411.05847v2 宣告类型: 替换-交叉
摘要:本文提出了一种基于协作训练或联邦学习范式的新型定位框架,以实现自主车辆的高精度定位。具体而言,我们在此基础上构建了一个基于标准KalmanNet的方法,KalmanNet是一种递归神经网络,旨在估计传统扩展卡尔曼滤波器的基础系统不确定性,并通过适配-然后-组合的概念重新构建为FedKalmanNet。后者通过一组车辆(或者客户端)以分布式方式训练,在全球服务器聚合操作中使用车辆位置和速度测量的本地训练数据集。然后,每个车辆使用FedKalmanNet来定位自己,通过估计相应的系统不确定性矩阵(即卡尔曼增益)。我们的目标是实际展示协作训练在自主驾驶中的状态估计方面的优势,而不是协作决策,后者在实时约束下需要丰富的V2X通信资源以进行测量交换和传感器融合。在CARLA自主驾驶模拟器中进行的广泛实验和评估研究表明,FedKalmanNet在无需实时V2X通信的情况下,能够显著优于现有的协作决策方法,以定位车辆。