arXiv 论文列表

CritiPrefill：一种基于段级关键性的预填充加速方法在大语言模型中的应用

大型语言模型在多个领域取得了显著的成功，但推理效率仍然受到注意力机制二次计算复杂度的限制。推理过程包括预填充和解码阶段。尽管已经有一些加速解码的尝试，预填充阶段的低效性，尤其是对于长上下文任务，仍然是一个挑战。在本文中，我们观察到在长上下文处理的预填充阶段存在查询关键性的局部性：相邻的查询标记往往集中在过去键值（KV）缓存的相似子集上。基于这一观察，我们提出了CritiPrefill，一种基于关键性的分段预填充方法。该方法将输入序列的查询和KV缓存划分为段和块，利用分段算法估计查询的关键性。通过修剪查询段和缓存块之间在自注意机制中的非关键计算，可以显著加速预填充过程。在多个长上下文数据集上的广泛评估显示，在单个A100 GPU上，对于128K上下文长度，Llama3-8B和Yi-9B分别实现了高达2.7倍和3.0倍的速度提升，且质量下降极小。

发布时间: 9/24/2024

查看原文

FlexiTex：通过视觉引导增强纹理生成

最近的纹理生成方法由于利用了大规模文本到图像扩散模型中的强大生成先验，取得了令人印象深刻的成果。然而，抽象的文本提示在提供全局纹理或形状信息方面存在局限性，导致纹理生成方法生成的图案模糊或不一致。为了解决这个问题，我们提出了FlexiTex，通过视觉引导嵌入丰富的信息来生成高质量的纹理。FlexiTex的核心是视觉引导增强模块，该模块结合视觉引导中的更具体信息，以减少文本提示中的歧义，并保留高频细节。为了进一步增强视觉引导，我们引入了方向感知适配模块，该模块基于不同的相机姿态自动设计方向提示，避免了Janus问题并保持语义上的全局一致性。得益于视觉引导，FlexiTex生成了定量和定性上都令人满意的结果，展示了其在推进现实世界纹理生成应用中的潜力。

发布时间: 9/24/2024

查看原文

Takin: 一组高质量的零样本语音生成模型

随着大数据和大型语言模型时代的到来，零样本个性化快速定制已成为一个显著的趋势。在这篇报告中，我们介绍了Takin AudioLLM，一系列主要包括Takin TTS、Takin VC和Takin Morphing的技术和模型，专门为有声读物制作而设计。这些模型能够进行零样本语音生成，生成的高质量语音几乎与真人语音难以区分，并使个人能够根据自己的需求定制语音内容。具体而言，我们首先介绍了Takin TTS，这是一种基于增强神经语音编解码器和多任务训练框架的神经编解码语言模型，能够以零样本方式生成高保真自然语音。对于Takin VC，我们倡导一种有效的内容和音色联合建模方法，以提高说话者相似性，同时倡导基于条件流匹配的解码器，以进一步增强其自然性和表达力。最后，我们提出了Takin Morphing系统，采用高度解耦和先进的音色和韵律建模方法，使个人能够以精确和可控的方式定制语音生成。大量实验验证了我们Takin AudioLLM系列模型的有效性和稳健性。有关详细演示，请参见https://everest-ai.github.io/takinaudiollm/。

发布时间: 9/24/2024

查看原文

GReDP：一种更鲁棒的差分隐私训练方法，具有梯度保留噪声减少功能

深度学习模型因其能够表示层次特征而在各个领域得到了广泛采用，这高度依赖于训练集和训练过程。因此，保护训练过程和深度学习算法在隐私保护中至关重要。尽管差分隐私（DP）作为一种强大的加密原语在深度学习训练中取得了令人满意的结果，但现有方案在保持模型效用方面仍存在不足，即它们要么引入了较高的噪声规模，要么不可避免地损害了原始梯度。为了解决上述问题，本文提出了一种更为稳健的DP训练方法，称为GReDP。具体而言，我们在频域中计算模型梯度，并采用了一种新方法来降低噪声水平。与之前的工作不同，我们的GReDP所需的噪声规模仅为DPSGD [1]的一半，同时保持所有梯度信息的完整性。我们对该方法进行了理论和实证的详细分析。实验结果表明，在所有模型和训练设置中，我们的GReDP始终优于基准方法。

发布时间: 9/24/2024

查看原文

CSKV：长上下文场景中高效训练的KV缓存通道缩减

大规模语言模型（LLMs）已广泛应用于处理长上下文任务。然而，键值（KV）缓存的大量内存开销在长上下文场景中带来了显著的挑战。现有的无训练KV缓存压缩方法通常集中在量化和令牌修剪上，这些方法有压缩的极限，且过度稀疏会导致严重的性能下降。其他方法设计了具有更少KV开销的新架构，但需要显著的训练开销。为了应对上述两种缺点，我们进一步探索了通道维度上的冗余，并应用了具有较小训练成本的架构级设计。因此，我们引入了CSKV，一种训练高效的通道缩减KV缓存压缩技术：(1) 我们首先分析了KV缓存的奇异值分布，揭示了通道维度上的显著冗余和压缩潜力。基于这一观察，我们建议对键和值层进行低秩分解，并存储低维特征。(2) 为了保持模型性能，我们引入了一个双分支KV缓存，包括一个基于窗口的全精度KV缓存和一个低精度压缩的KV缓存。(3) 为了减少训练成本，我们最小化压缩KV缓存的逐层重构损失，而不是重新训练整个LLMs。大量实验表明，CSKV可以在保持模型长上下文能力的同时，将KV缓存的内存开销减少80%。此外，我们展示了我们的方法可以无缝结合量化进一步减少内存开销，实现高达95%的压缩比。

发布时间: 9/24/2024

查看原文

闪电 STU：快速光谱变换单元

该论文描述了一种高效的、开源的PyTorch实现的频谱变换单元。我们研究了包括语言、机器人和模拟动态系统在内的多种模式下的序列预测任务。我们发现，在相同的参数数量下，频谱变换单元及其变体在各类模式下的表现优于Transformer以及其他领先的状态空间模型。

发布时间: 9/24/2024

查看原文

MGSA: 面向知识图谱到文本生成的多粒度图结构注意力模型

知识图谱生成文本任务旨在将结构化的知识图谱转换为连贯且易于阅读的自然语言文本。最近在该领域的努力集中在通过引入图结构信息来增强预训练语言模型（PLMs），以捕捉知识图谱的复杂结构细节。然而，大多数方法往往只捕捉单一粒度的结构信息，要么集中于原始图中实体之间的关系，要么集中于同一实体内或不同实体之间的词汇关系。这种狭隘的关注导致了一个显著的限制：专注于实体级别结构的模型未能捕捉词汇之间的细微语义关系，而专注于词汇级别结构的模型则忽视了整个原始实体之间的更广泛关系。为了克服这些限制，本文引入了基于PLMs的多粒度图结构注意（MGSA）。模型架构的编码器具有一个实体级别结构编码模块，一个词汇级别结构编码模块，以及一个综合两个结构信息的聚合模块。这种多粒度结构编码方法使模型能够同时捕捉实体级别和词汇级别的结构信息，从而更全面地理解知识图谱的结构信息，显著提高生成文本的质量。我们使用两个广泛认可的知识图谱生成文本基准数据集WebNLG和EventNarrative对MGSA模型进行了广泛评估，结果表明，MGSA模型在这些基准上始终优于仅依赖单一粒度结构信息的模型，证明了我们方法的有效性。

发布时间: 9/24/2024

查看原文

基于LLM的对话状态跟踪的置信度估计

估计模型对其输出的置信度对于基于大型语言模型（LLMs）的对话式人工智能系统至关重要，尤其是在减少幻觉和防止过度依赖方面。在这项工作中，我们对各种方法进行了详尽的探索，包括针对开放和封闭权重LLMs提出的方法，旨在量化和利用模型的不确定性，以提高LLM生成响应的可靠性，特别是专注于任务导向对话系统（TODS）中的对话状态跟踪（DST）。无论模型类型如何，良好校准的置信度评分对于处理不确定性至关重要，从而提高模型性能。我们评估了基于softmax、原始token得分、言语化置信度以及这些方法组合的四种置信度评分估计方法，使用曲线下面积（AUC）指标评估校准情况，AUC越高表示校准越好。我们还通过自我探测机制增强了这些方法，该机制是为封闭模型提出的。此外，我们使用为DST任务微调的开放权重模型评估了这些方法，取得了优越的联合目标准确性（JGA）。我们的研究结果还表明，微调开放权重LLMs可以提高AUC性能，表明置信度评分校准得到了改进。

发布时间: 9/24/2024

查看原文

自回归 + 思维链 = 递归：递归在语言模型可计算性中的作用及递归Transformer的再探讨

Transformer架构在多种语言建模任务中表现出色，优于传统的神经架构如RNN和LSTM。这部分归功于其消除了循环连接，使得并行训练和梯度流动更加顺畅。然而，这种去循环化的设计使Transformer模型处于Chomsky计算层级的较低端，限制了其计算能力。因此，即使是先进的基于Transformer的模型在计数、字符串反转和乘法等任务上也面临相当大的困难。这些任务虽然看似简单，但需要的计算复杂度超出了Transformer架构的能力。同时，“思维链”提示的出现使基于Transformer的语言模型能够解决以前不可能或执行不佳的任务。在这项工作中，我们深入研究了神经模型中循环结构对其推理能力和可计算性的影响，对比了自回归在神经模型计算能力中的作用。然后，我们揭示了CoT方法如何模拟循环计算，并在语言模型背景下充当自回归和循环之间的桥梁。正是这种近似的循环显著提高了模型的性能和计算能力。此外，我们重新审视了最近基于循环的Transformer模型设计，重点关注其通过我们提出的“循环完备性”概念来评估其计算能力，并识别出Linear Transformer和RWKV等模型中的关键理论局限性。通过这一研究，我们旨在提供对神经模型架构的见解，并促进更好的模型设计。

发布时间: 9/24/2024

查看原文

软件工程中的智能体：综述、现状与展望

近年来，大型语言模型（LLMs）取得了显著成功，并广泛应用于各种下游任务，特别是在软件工程（SE）领域的任务中。我们发现，许多将LLMs与SE结合的研究都或明或暗地采用了代理的概念。然而，目前缺乏深入的综述来梳理现有工作的开发背景，分析现有工作如何结合基于LLM的代理技术来优化各种任务，并明确基于LLM的代理在SE中的框架。在本文中，我们进行了第一次关于将基于LLM的代理与SE结合的研究综述，并提出了一个包含感知、记忆和行动三个关键模块的SE中基于LLM的代理框架。我们还总结了结合这两个领域的当前挑战，并针对现有挑战提出了未来的机会。我们在GitHub上维护了相关论文的仓库，地址为：https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE。

发布时间: 9/24/2024

查看原文