arXiv 论文列表

作者: Junyu Lu, Bo Xu, Xiaokun Zhang, Hongbo Wang, Haohao Zhu, Dongyu Zhang, Liang Yang, Hongfei Lin

大型语言模型 (LLM) 已经在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 10/4/2024

2024 年语音隐私挑战赛：NTU-NPU 系统

作者: Nikita Kuzmin, Hieu-Thi Luong, Jixun Yao, Lei Xie, Kong Aik Lee, Eng Siong Chng

在这项工作中，我们描述了我们提交给 2024 年语音隐私挑战赛的方案。我们没有提出一种新颖的语音匿名化系统，而是对提供的基线进行了改进，以满足所有要求的条件并改善评估指标。具体来说，我们实现了情感嵌入，并使用 WavLM 和 ECAPA2 说话人嵌入器对 B3 基线进行了实验。此外，我们比较了不同的说话人和韵律匿名化技术。此外，我们为 B5 引入了均值回归 F0，这有助于在不损失效用情况下提高隐私。最后，我们探索了分离模型，即 $\beta$-VAE 和 NaturalSpeech3 FACodec。

发布时间: 10/4/2024

查看原文

从具体到抽象：一种多模态生成式抽象概念学习方法

作者: Haodong Xie, Rahul Singh Maharjan, Federico Tavella, Angelo Cangelosi

理解和操纵具体和抽象的概念是人类智能的基础。然而，这对人工代理来说仍然具有挑战性。本文介绍了一种多模态生成方法来学习高阶抽象概念，该方法整合了来自具体概念的视觉和类别语言信息。我们的模型最初将下级具体概念进行基础化，将其组合形成基础级概念，最后通过基础级概念的基础化抽象到上级概念。我们通过使用高阶抽象概念进行语言到视觉和视觉到语言测试来评估模型的语言学习能力。实验结果表明，该模型在语言理解和语言命名任务中都表现出色。

发布时间: 10/4/2024

查看原文

面向医学图像分析的Mamba架构综述：分类、分割、恢复及其他

作者: Shubhi Bansal, Sreeharish A, Madhava Prasath J, Manikandan S, Sreekanth Madisetty, Mohammad Zia Ur Rehman, Chandravardhan Singh Raghaw, Gaurav Duggal, Nagendra Kumar

Mamba，作为状态空间模型的一种特殊情况，正逐渐成为医学图像分析中基于模板的深度学习方法的替代方案。尽管Transformer是一种强大的架构，但它也存在一些缺点，包括二次计算复杂度以及无法有效地处理长距离依赖关系。这种限制影响了医学影像中对大型复杂数据集的分析，因为这些数据集中存在许多空间和时间关系。相比之下，Mamba 的优势使其非常适合医学图像分析。它具有线性时间复杂度，比 Transformer 有显著的改进。Mamba 在没有注意力机制的情况下处理更长的序列，从而实现更快的推理，并需要更少的内存。Mamba 还展示了在合并多模态数据方面的强大性能，从而提高了诊断准确性和患者预后。本文的组织方式使读者能够逐步了解 Mamba 在医学影像中的能力。我们首先定义了 SSM 和模型的核心概念，包括 S4、S5 和 S6，然后探索了 Mamba 架构，例如纯 Mamba、U-Net 变体以及与卷积神经网络、Transformer 和图神经网络的混合模型。我们还涵盖了 Mamba 优化、技术和适应、扫描、数据集、应用、实验结果，最后总结了其在医学影像中的挑战和未来方向。这篇综述旨在展示 Mamba 在克服医学影像中现有障碍方面的变革潜力，同时为该领域的创新进步铺平道路。本文中回顾的应用于医学领域的 Mamba 架构的完整列表可在 Github 上找到。

发布时间: 10/4/2024

查看原文

AlphaEdit：基于零空间约束的语言模型知识编辑

作者: Junfeng Fang, Houcheng Jiang, Kun Wang, Yunshan Ma, Xiang Wang, Xiangnan He, Tat-seng Chua

大型语言模型（LLMs）由于知识错误或过时，经常出现幻觉现象。因此，模型编辑方法应运而生，旨在实现目标知识更新。为了实现这一目标，一种普遍的范式是定位-编辑方法，该方法首先定位有影响力的参数，然后通过引入扰动来编辑它们。虽然有效，但现有研究表明，这种扰动不可避免地会破坏 LLM 中最初保留的知识，尤其是在顺序编辑场景中。为了解决这个问题，我们引入了 AlphaEdit，这是一种新颖的解决方案，它在将扰动应用于参数之前，将其投影到保留知识的零空间上。我们从理论上证明，这种投影确保了经过编辑的 LLM 在查询保留知识时，其输出保持不变，从而减轻了破坏问题。在各种 LLM 上进行的广泛实验，包括 LLaMA3、GPT2-XL 和 GPT-J，表明 AlphaEdit 将大多数定位-编辑方法的性能平均提高了 36.4%，并且仅用一行额外的代码来进行投影。我们的代码可在以下网址获取：https://github.com/jianghoucheng/AlphaEdit。

发布时间: 10/4/2024

查看原文

大型语言模型 (LLM) 的推理能力，RAG 能帮多少？

作者: Jingyu Liu, Jiaen Lin, Yong Liu

检索增强生成 (RAG) 在现代大型语言模型 (LLM) 中获得了极大的普及，因为它在引入新知识和减少幻觉方面非常有效。然而，人们对 RAG 的深刻理解仍然有限，RAG 如何帮助推理过程以及 RAG 是否可以帮助提高推理能力仍然是一个问题。虽然外部文档通常被认为是整合特定领域信息的一种方法，但它们也包含与查询相关的中间推理结果，这表明文档可以增强 LLM 的推理能力，这在以前从未被探索过。在本文中，我们深入研究了这个问题，发现虽然 RAG 可以帮助推理，但帮助有限。如果我们将推理过程概念化为一个固定深度的树，那么 RAG 难以帮助 LLM 进行更深层次的推理。此外，文档中的信息需要预处理以过滤掉噪声。我们证明，这种预处理很难仅仅通过微调 LLM 来实现，它通常需要许多额外的 Transformer 层来解决问题。为了简化问题，我们提出了 DPrompt 调优，它可以有效地解决问题，只需有限的 Transformer 层，从而提高性能。

发布时间: 10/4/2024

查看原文

毫米波车联网的自训练信道状态预测方法

作者: Abidemi Orimogunje, Vukan Ninkovic, Evariste Twahirwa, Gaspard Gashema, Dejan Vukobratovic

建立和维护 5G 毫米波车载连接面临着重大挑战，因为高速移动的用户需要频繁触发波束切换程序。与基于用户设备信道状态反馈的反应式波束切换不同，主动式波束切换通过利用准确的信道状态信息 (CSI) 预测来提前准备即将到来的波束切换决策。在本文中，我们为毫米波车载用户开发了一个自主自训练 CSI 预测框架，其中基站 (gNB) 收集并标记一个数据集，用于训练基于循环神经网络 (RNN) 的 CSI 预测模型。该框架利用来自车载用户的 CSI 反馈，以及监听他们广播的 C-V2X 协作感知消息 (CAM)。我们使用 deepMIMO 数据集生成环境对该框架进行了实现和评估，并证明了它能够为 5G 毫米波车载用户提供准确的 CSI 预测。训练了 CSI 预测模型，并研究了它从各种输入特征提供准确 CSI 预测的能力。

发布时间: 10/4/2024

查看原文

编辑后的偏好也是偏好

作者: Nathaniel Berger, Stefan Riezler, Miriam Exel, Matthias Huck

偏好优化 (PO) 技术目前是针对人类标注者提供的成对偏好反馈微调大型语言模型 (LLMs) 的最先进技术之一。然而，在机器翻译中，这种反馈很难获得。此外，Kreutzer 等人 (2018) 已经表明，对于机器翻译，成对偏好不如其他形式的人类反馈（例如 5 分制评分）可靠。我们研究了后期编辑，以查看它们是否可以作为可靠的人类偏好来源。在 PO 中，人类标注者会看到序列 $s_1$ 和 $s_2$，并被要求进行偏好判断，%$s_1 > s_2$；而在后期编辑中，编辑会 \emph{创建} $s_1$ 并知道它应该比 $s_2$ 更好。我们尝试将这些隐式偏好用于 PO，并表明它有助于模型朝着后期编辑类假设移动，并远离机器翻译类假设。此外，我们表明，通过在后期编辑上使用监督微调 (SFT) 对模型进行预训练以将后期编辑类假设提升到输出排名顶部，可以获得最佳结果。

发布时间: 10/4/2024

查看原文

CTARR：一种基于图谱配准的快速鲁棒的 CT 图像解剖区域识别方法

作者: Thomas Buddenkotte, Roland Opfer, Julia Kr\"uger, Alessa Hering, Mireia Crispin-Ortuzar

医学图像分析任务通常关注患者体内特定位置的区域或结构。通常，图像的大部分区域可能与图像分析任务无关。当使用基于深度学习的方法时，这会导致推理过程中不必要的计算负担增加，并提高错误发生的可能性。在本文中，我们介绍了 CTARR，一种用于 CT 解剖区域识别的通用方法。该方法作为任何基于深度学习的 CT 图像分析流程的预处理步骤，通过自动识别与后续任务相关的预定义解剖区域并去除其余部分来实现。它可以用于（i）图像分割，以防止在解剖学上不可信的区域出现误报，并加快推理速度；（ii）图像分类，以生成在解剖学上下文中一致的图像裁剪；以及（iii）图像配准，作为快速预配准步骤。我们提出的方法基于图谱配准，并提供了一种快速而稳健的方法，可以从任何未标记的脑、胸、腹和/或骨盆 CT 扫描中裁剪任何编码为一个或多个边界框的解剖区域。我们通过在六个公共分割挑战数据集上评估该方法，证明了其在医学图像分割中的效用和稳健性。在绝大多数情况下和任务中（97.45-100%），感兴趣区域中的前景体素得以保留，同时计算时间仅为几分之一秒（0.1-0.21 秒），在深度学习工作站上运行，并大大减少了分割运行时间（2.0-12.7 倍）。我们的代码可在 https://github.com/ThomasBudd/ctarr 获取。

发布时间: 10/4/2024

查看原文

BETO 语言模型中使用的词语子词词汇的形态学评估

作者: \'Oscar Garc\'ia-Sierra, Ana Fern\'andez-Pampill\'on Cesteros, Miguel Ortega-Mart\'in

大型语言模型使用的子词标记化算法效率更高，能够在没有人为干预的情况下独立构建必要的词语和子词词汇表。然而，这些子词并不总是与真实的语素相一致，可能会影响模型的性能，尽管何时会发生这种情况尚不确定。在之前的研究中，我们提出了一种评估词汇表形态质量的方法，重点关注这些词汇表与给定语言的语素之间的重叠。我们的评估方法建立在三个质量指标之上：相关性、凝聚力和形态准确性，以及它们的评估程序。通过将该方法应用于三种子词标记化算法（BPE、Wordpiece 和 Unigram）创建的词汇表，我们得出结论，这些词汇表通常表现出非常低的形态质量。在本文中，我们对 BETO（一个在大型西班牙语语料库上训练的 BERT 语言模型）的标记器进行了评估。此次评估以及我们之前的研究结果帮助我们得出结论，其词汇表具有较低的形态质量，并且我们还发现，在更大的语料库中训练标记器并不能提高生成的词汇表的形态质量。此外，此次评估有助于澄清标记器使用的算法，即 Wordpiece，因为作者的声明与模型的配置之间存在不一致。

发布时间: 10/4/2024

查看原文