大规模文本转语音 (TTS) 系统通过增加训练数据量,在零样本语音合成方面取得了显著进展。然而,这些系统存在一些局限性:它们需要大量的训练数据,这会增加成本,并且往往忽略了韵律相似性。为了解决这些问题,我们提出了 MultiVerse,一个零样本多任务 TTS 系统,能够在零样本和跨语言条件下执行 TTS 或语音风格转换。MultiVerse 比传统的数据驱动方法需要更少的训练数据。为了确保在数据有限的情况下也能实现零样本性能,我们利用基于源滤波器理论的解耦,利用提示来建模滤波器相关和源相关的表示。此外,为了进一步增强韵律相似性,我们采用了一种结合基于提示的自回归和非自回归方法的韵律建模方法。评估表明 MultiVerse 具有显著的零样本多任务 TTS 性能,并表明 MultiVerse 不仅在数据量少的情况下实现了与数据驱动 TTS 系统相当的零样本 TTS 性能,而且显著优于使用相同少量数据训练的其他零样本 TTS 系统。特别是,我们新颖的韵律建模技术显著促进了 MultiVerse 能够生成与给定提示具有高度韵律相似性的语音。我们的样本可在 https://nc-ai.github.io/speech/publications/multiverse/index.html 获取。
糖尿病视网膜病变是糖尿病的常见并发症,使用眼底图像监测视网膜异常的进展至关重要。由于图像必须由医学专家解读,因此对所有糖尿病患者进行糖尿病视网膜病变筛查不可行。深度学习在眼底图像的自动分析和分级方面取得了令人瞩目的成果。然而,一个缺点是缺乏可解释性,这阻碍了此类系统在临床中的应用。可解释人工智能方法可以用来解释深度神经网络。基于概念的解释已被证明对人类来说易于理解,但尚未在糖尿病视网膜病变分级中得到详细研究。本研究调查和比较了两种基于概念的解释技术,用于解释为自动诊断糖尿病视网膜病变而开发的深度神经网络:使用概念激活向量进行定量测试和概念瓶颈模型。我们发现这两种方法各有优劣,方法的选择应考虑可用数据和最终用户的偏好。
量化已成为降低大型语言模型 (LLM) 推理的计算和存储成本的主要方法。当前的大多数研究都集中在对权重和激活进行量化,以实现低比特通用矩阵乘法 (GEMM) 操作,而其余的非线性操作则以更高的精度执行。在我们的研究中,我们发现,在应用这些技术之后,LLM 推理中的主要瓶颈在于 softmax 层。softmax 操作包含三个阶段:指数计算、累加和归一化。我们的工作重点是优化前两个阶段。我们提出了一种分析方法来确定 softmax 函数输入的最佳剪切值,从而使 LLM 推理能够实现低于 4 比特的量化。这种方法可以加速 $e^x$ 和 $\sum(e^x)$ 的计算,同时精度下降最小或没有下降。例如,在 LLaMA1-30B 中,我们使用 2 比特量化在著名的“物理交互:问答”(PIQA)数据集评估中实现了基线性能。这种超低比特量化首次使累加阶段的加速达到约 4 倍。加速 $e^x$ 和 $\sum(e^x)$ 的组合导致 softmax 操作加速了 36.9%。
大型视觉语言模型(LVLMs)取得了令人印象深刻的性能,但研究指出这些模型中存在严重的物体幻觉问题。然而,目前尚无明确结论表明这些幻觉源于模型的哪个部分。本文对 CLIP 模型中的物体幻觉问题进行了深入研究,CLIP 模型是许多最先进的视觉语言系统的基础。我们发现,即使是孤立的 CLIP 模型也容易产生物体幻觉,这表明幻觉问题并非仅仅由于视觉和语言模态之间的交互作用。为了解决这个问题,我们提出了一种反事实数据增强方法,通过创建具有各种幻觉问题的负样本。我们证明了我们的方法可以有效地减轻 CLIP 模型的物体幻觉,并且我们展示了增强后的模型可以作为视觉编码器使用,有效地缓解了 LVLMs 中的物体幻觉问题。
我们提出了一种自回归 (AR) 移动平均 (MA) 注意力结构,它可以适应各种线性注意力机制,增强它们捕获时间序列中的长程和局部时间模式的能力。在本文中,我们首先证明,对于时间序列预测 (TSF) 任务,先前被忽视的仅解码器自回归 Transformer 模型在应用适当的标记化和训练方法时可以实现与最佳基线相当的结果。此外,受统计学中的 ARMA 模型和线性注意力的最新进展启发,我们将完整的 ARMA 结构引入现有的自回归注意力机制。通过使用间接 MA 权重生成方法,我们在保持底层高效注意力模型的时间复杂度和参数大小的同时,加入了 MA 项。我们进一步探讨了间接参数生成如何产生与局部时间影响的建模要求相一致的隐式 MA 权重。实验结果表明,将 ARMA 结构纳入各种 AR 注意力机制中,可以持续提高 TSF 任务的性能,并取得最先进的结果。
状态空间模型(SSM)已成为对序列数据中的长程依赖关系进行建模的强大框架。与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同,SSM 提供了一种结构化且稳定的序列建模方法,利用了控制理论和动力系统原理。然而,序列建模中的一个关键挑战是将长期依赖关系压缩成一个紧凑的隐藏状态表示,而不会丢失关键信息。
本文针对选择性状态空间模型中的记忆压缩问题,建立了一个严谨的数学框架。我们引入了一种选择性门控机制,该机制根据输入的相关性动态地过滤和更新隐藏状态,从而实现高效的记忆压缩。我们使用信息论工具(如互信息和率失真理论)将记忆效率与信息保留之间的权衡形式化。我们的分析提供了关于可以在不牺牲模型性能的情况下压缩的信息量的理论界限。
我们还推导出定理来证明选择性 SSM 中隐藏状态的稳定性和收敛性,确保可靠的长期记忆保留。计算复杂度分析表明,与传统的基于 RNN 的模型相比,选择性 SSM 在记忆效率和处理速度方面具有显著优势。通过对时间序列预测和自然语言处理等序列建模任务进行实证验证,我们证明了选择性 SSM 在使用更少的内存和计算资源的情况下实现了最先进的性能。
我们提出了 MELODI,一种新型的记忆架构,旨在使用短上下文窗口高效处理长文档。MELODI 的核心原则是在网络层和上下文窗口之间采用分层压缩方案来表示短期和长期记忆。具体来说,短期记忆是通过对多个层中的上下文窗口进行递归压缩来实现的,确保窗口之间的平滑过渡。相反,长期记忆在单个中间层内进行进一步压缩,并聚合来自上下文窗口的信息,有效地整合来自整个历史的关键信息。与采用大规模长期记忆(64K 个键值对)上的密集注意力机制的记忆 Transformer 这种强基线相比,我们的方法在各种长上下文数据集上表现出优越的性能,同时显着地将内存占用减少了 8 倍。
剩余使用寿命 (RUL) 预测对于维护现代工业系统至关重要,因为设备可靠性和运行安全是重中之重。传统方法基于小规模深度学习或物理/统计模型,往往难以处理复杂的多维传感器数据和不同的运行条件,限制了其泛化能力。为了解决这些挑战,本文提出了一种利用大型语言模型 (LLM) 进行 RUL 预测的创新回归框架。通过利用在语料库数据上预训练的 LLM 的建模能力,所提出的模型可以有效地捕获复杂的时序依赖关系并提高预测精度。在涡扇发动机 RUL 预测任务上的大量实验表明,所提出的模型在具有挑战性的 FD002 和 FD004 子集上超越了最先进 (SOTA) 方法,并在其他子集上取得了接近 SOTA 的结果。值得注意的是,与之前研究不同,我们的框架对所有子集使用相同的滑动窗口长度和所有传感器信号,展示了强大的一致性和泛化能力。此外,迁移学习实验表明,在微调时仅使用少量目标域数据,该模型优于在完整目标域数据上训练的 SOTA 方法。这项研究突出了 LLM 在工业信号处理和 RUL 预测中的巨大潜力,为未来智能工业系统中的健康管理提供了一种前瞻性的解决方案。
自回归模型在自然语言处理方面取得了显著的成功。在本工作中,我们为机器人操作任务设计了一个简单但有效的自回归架构。我们提出了分块因果Transformer(CCT),它将因果Transformer的下一个单标记预测扩展到支持单次多标记预测。此外,我们设计了一种新颖的注意力交织策略,允许CCT在教师强制的情况下进行有效地训练。基于CCT,我们提出了自回归策略(ARP)模型,该模型学习自回归地生成动作序列。我们发现动作序列学习能够更好地利用机器人任务中潜在的因果关系。我们在各种机器人操作环境(包括Push-T、ALOHA和RLBench)中评估了ARP,结果表明,它在所有测试环境中都优于最先进的方法,同时在计算和参数规模方面也更有效。视频演示、源代码和ARP模型可以在http://github.com/mlzxy/arp找到。
大型语言模型 (LLM) 极大地推动了自然语言处理的进步,但其高内存和计算需求阻碍了实际部署。二值化作为一种有效的压缩技术,可以将模型权重缩减至仅 1 位,从而显著降低对计算和内存的高需求。然而,当前的二值化方法难以缩小二值化权重与全精度权重之间的分布差距,同时忽视了 LLM 权重分布中的列偏差。为了解决这些问题,我们提出了 ARB-LLM,这是一种针对 LLM 的新型 1 位训练后量化 (PTQ) 技术。为了缩小二值化权重与全精度权重之间的分布偏移,我们首先设计了一种交替细化二值化 (ARB) 算法,以逐步更新二值化参数,从而显著降低量化误差。此外,考虑到校准数据的关键作用和 LLM 权重中的列偏差,我们进一步将 ARB 扩展到 ARB-X 和 ARB-RC。此外,我们使用列组位图 (CGB) 改进了权重划分策略,进一步提升了性能。将 ARB-X 和 ARB-RC 与 CGB 相结合,我们分别获得了 ARB-LLM$_\text{X}$ 和 ARB-LLM$_\text{RC}$,它们在 LLM 的最先进 (SOTA) 二值化方法中表现显著优于其他方法。作为一种二进制 PTQ 方法,我们的 ARB-LLM$_\text{RC}$ 首次超越了相同大小的 FP16 模型。代码和模型将在 https://github.com/ZHITENGLI/ARB-LLM 上提供。