arXiv 论文列表

CritiPrefill：一种基于段级关键性的预填充加速方法在大语言模型中的应用

大型语言模型在各个领域取得了显著的成功，然而，高效的推理仍然受到注意力机制二次计算复杂度的限制。推理过程包括预填充和解码阶段。尽管已经有一些尝试来加速解码，但预填充阶段，尤其是对于长上下文任务的低效性，仍然是一个挑战。在本文中，我们观察到在长上下文处理的预填充阶段，查询关键性存在局部性：相邻的查询标记往往关注过去键值（KV）缓存的相似子集。基于这一观察，我们提出了CritiPrefill，一种基于关键性的分段预填充方法。该方法将输入序列的查询和KV缓存划分为段和块，利用分段算法来估计查询关键性。通过在自注意力机制中修剪查询段和缓存块之间的非关键计算，预填充过程可以显著加速。在多个长上下文数据集上的广泛评估显示，在单个A100 GPU上，Llama3-8B和Yi-9B在128K上下文长度下分别实现了高达2.7倍和3.0倍的加速，且质量下降最小。

发布时间: 9/20/2024

查看原文

面向目标检测的对象制造攻击

arXiv:2212.06431v3 公告类型: 替换-交叉摘要: 最近的研究表明，目标检测网络通常容易受到对抗样本的影响。一般来说，目标检测的对抗攻击可以分为有目标攻击和无目标攻击。与无目标攻击相比，有目标攻击更具挑战性，所有现有的有目标攻击方法都是通过误导检测器将检测到的对象错误地标记为特定的错误标签来发起攻击。然而，由于这些方法必须依赖于受害者图像中是否存在检测到的对象，因此在攻击场景和攻击成功率方面存在局限性。在本文中，我们提出了一种有目标的特征空间攻击方法，该方法可以误导检测器“制造”额外的指定对象，无论受害者图像是否包含对象。具体来说，我们引入了一张引导图像来提取目标对象的粗粒度特征，并设计了一种创新的双重注意力机制，以有效地过滤出目标对象的关键特征。所提出的方法在MS COCO和BDD100K数据集上使用FasterRCNN和YOLOv5进行了评估。评估结果表明，与之前的目标检测有目标攻击相比，所提出的有目标特征空间攻击方法在图像特定性、普遍性和泛化攻击性能方面显示出显著的改进。

发布时间: 9/20/2024

查看原文

学习多流形嵌入用于分布外检测

arXiv:2409.12479v1 公告类型: 交叉摘要: 在实际应用中，检测分布外（OOD）样本对于可信AI至关重要。利用表示学习和潜在嵌入的最新进展，各种评分算法估计超出训练数据分布的样本。然而，单一嵌入空间在表征分布内数据和防御多样化的OOD条件方面存在不足。本文提出了一种新颖的多流形嵌入学习（MMEL）框架，通过联合优化超球面和双曲空间来增强OOD检测。MMEL生成具有代表性的嵌入，并采用原型感知评分函数来区分OOD样本。它在极少OOD样本的情况下运行，且无需模型重新训练。在六个公开数据集上的实验表明，与最先进的基于距离的OOD检测方法相比，MMEL显著降低了FPR，同时保持了较高的AUC。我们分析了学习多个流形的影响，并可视化了跨数据集的OOD评分分布。值得注意的是，在不重新训练的情况下加入十个OOD样本，其FPR和AUC与使用8000万个异常样本进行模型训练的现代异常暴露方法相当。

发布时间: 9/20/2024

查看原文

线性函数逼近下时序差分学习的有限时间分析：尾平均与正则化

arXiv:2210.05918v3 公告类型: 替换-交叉摘要: 我们研究了当结合尾平均时，流行的时序差分（TD）学习算法的有限时间行为。我们在不依赖于投影TD固定点矩阵特征值信息的步长选择下，推导了尾平均TD迭代参数误差的有限时间界限。我们的分析表明，尾平均TD在期望和概率上均以最优的$O\left(1/t\right)$速率收敛。此外，我们的界限显示了初始误差（偏差）的更快衰减速率，这是对平均所有迭代的改进。我们还提出并分析了一种包含正则化的TD变体。从分析中，我们得出结论，正则化版本的TD对于特征条件数较差的问题是有用的。

发布时间: 9/20/2024

查看原文

ViolinDiff: 通过音高弯曲条件增强小提琴表现力合成

arXiv:2409.12477v1 公告类型: 交叉摘要: 建模基频(F0)的自然轮廓在音乐音频合成中起着关键作用。然而,在复调音乐中转录和管理多个F0轮廓是具有挑战性的,并且尚未探索显式F0轮廓建模用于复调乐器合成。在本文中,我们提出了ViolinDiff,一个两阶段的基于扩散的合成框架。对于给定的提琴MIDI文件,第一阶段估计F0轮廓作为弯音信息,第二阶段生成包含这些表现细节的梅尔频谱图。定量指标和听觉测试结果表明,与没有显式弯音建模的模型相比,所提出的模型生成了更逼真的提琴声音。音频样本可在线获取:daewoung.github.io/ViolinDiff-Demo。

发布时间: 9/20/2024

查看原文

TEAM：针对应用于RNN的网络入侵检测系统的时序对抗样本攻击模型

随着人工智能的发展，神经网络在网络入侵检测系统（NIDS）中扮演着关键角色。尽管神经网络具有巨大优势，但它们容易受到对抗性攻击。为了提高NIDS的可靠性，许多研究已经开展，并提出了大量解决方案。然而，现有解决方案很少考虑针对具有时间步长的循环神经网络（RNN）的对抗性攻击，这会极大地影响NIDS在现实世界中的应用。因此，我们首先提出了一种基于特征重构的新型RNN对抗性攻击模型，称为\textbf{T}emporal \textbf{E}xamples \textbf{A}ttack \textbf{M}odel（TEAM），该模型应用于时间序列数据，并揭示了RNN中对抗性与时间步长之间的潜在联系。也就是说，同一时间步长内的过去对抗性样本可以触发对当前或未来原始样本的进一步攻击。此外，TEAM利用时间膨胀（TD）有效减轻了同一时间步长内对抗性样本之间的时序影响。实验结果表明，在大多数攻击类别中，TEAM提高了NIDS在黑盒和白盒上的误判率，使误判率达到96.68%以上。同时，NIDS对后续原始样本的误判率最大增幅超过95.57%。

发布时间: 9/20/2024

查看原文

通过选择性数据匹配增强条件生成对抗网络训练的稳定性

条件生成对抗网络（cGANs）因其对类别控制的灵活性和在复杂生成任务中的卓越质量而取得了显著的成功。典型的cGANs通过分解为两个较简单的子问题——边缘匹配和条件匹配——来解决联合分布匹配问题。本文提出了一种简单但有效的训练方法，即选择性聚焦学习，该方法强制判别器和生成器快速学习每个类别的简单样本，同时保持多样性。我们的关键思想是针对每个小批量数据，选择性地应用条件匹配和联合匹配。具体来说，我们首先选择使用判别器输出（真实样本和生成样本）的条件项排序后得分最高的样本。然后，我们使用仅条件匹配优化所选样本，而使用联合匹配优化其他样本。通过我们的玩具实验发现，由于判别器的内容感知优化，仅对某些样本应用条件匹配效果最佳。我们在ImageNet（64x64和128x128）、CIFAR-10、CIFAR-100数据集以及高斯混合、噪声标签设置下进行了实验，结果表明，所提出的方法在10次独立试验中显著（在FID方面高达35.18%）改善了所有指标。代码可在https://github.com/pnu-cvsp/Enhancing-Stability-in-Training-Conditional-GAN-via-Selective-Data-Matching获取。

发布时间: 9/20/2024

查看原文

Arena 4.0：基于生成模型环境生成的人本导航综合ROS2开发与基准测试平台

基于我们之前工作的基础，本文介绍了Arena 4.0，这是对Arena 3.0、Arena-Bench、Arena 1.0和Arena 2.0的重大改进。Arena 4.0提供了三个关键的创新贡献：（1）一种基于生成模型的世界和场景生成方法，利用大型语言模型（LLMs）和扩散模型，从文本提示或2D平面图中动态生成复杂的人类中心环境，适用于社会导航策略的开发和基准测试；（2）一个全面的3D模型数据库，可通过语义链接和注释的额外3D资产进行扩展，以便在3D世界中动态生成和布置；（3）完全迁移到ROS 2，实现与现代硬件的兼容性，并增强导航、可用性和在真实机器人上的部署便利性。我们通过全面的用户研究评估了平台性能，展示了与之前版本相比在可用性和效率方面的显著改进。Arena 4.0已在https://github.com/Arena-Rosnav公开可用。

发布时间: 9/20/2024

查看原文

激发LLM代理间合作的自适应信息调制

arXiv:2409.10372v2 公告类型: 替换摘要: 本文提出了一种新颖的框架，结合了大型语言模型（LLM）代理作为人类战略行为的代理，并通过强化学习（RL）使这些代理在团队环境中进行不断演变的战略互动。我们的方法通过使用战略LLM代理（SLA）并引入通过亲社会促进RL代理（PPA）实现的动态和自适应治理，扩展了传统的基于代理的模拟。PPA代理在网络中调节信息访问，优化社会福利并促进亲社会行为。通过在迭代游戏中进行验证，包括囚徒困境，我们展示了SLA代理表现出细致的战略适应性。PPA代理有效地学习调整信息透明度，从而提高了合作率。该框架为AI介导的社会动态提供了重要见解，有助于AI在现实世界团队环境中的部署。

发布时间: 9/20/2024

查看原文

检索增强生成中的熟悉度感知证据压缩

检索增强生成（RAG）通过从外部源检索证据，将非参数知识引入大型语言模型（LMs），从而改进了这些模型。然而，它常常难以过滤掉不一致和无关的信息，这些信息可能会分散LMs在任务中的注意力。尽管使用压缩模型压缩检索到的证据旨在解决这一问题，但压缩后的证据可能对用于下游任务的目标模型来说仍然陌生，从而可能无法有效利用这些证据。我们提出了FaviComp（熟悉感知的证据压缩），这是一种无需训练的证据压缩技术，使检索到的证据对目标模型更加熟悉，同时无缝集成模型的参数知识。具体而言，FaviComp通过结合压缩模型和目标模型的标记概率，主动降低压缩证据相对于目标模型的困惑度，从而生成对目标模型更熟悉的内容。这种方法平衡了参数和非参数知识的整合，在检索证据集可能不包含所有必要信息的复杂任务中尤为有用。实验结果表明，FaviComp在多个开放域问答数据集上持续优于现有基线，实现了高压缩率，并展示了参数和非参数知识的有效整合。

发布时间: 9/20/2024

查看原文