arXiv 论文列表

作者: Marcin Chrapek, Anjo Vahldiek-Oberwagner, Marcin Spoczynski, Scott Constable, Mona Vij, Torsten Hoefler

基础模型 (FMs) 在自然语言处理等任务中表现出色，并被应用于越来越多的学科。尽管通常在大型公共数据集上进行训练，但 FMs 通常会被微调或集成到检索增强生成 (RAG) 系统中，而这些系统依赖于私有数据。这种访问权限，以及它们的大小和昂贵的训练成本，增加了知识产权盗窃的风险。此外，多模态 FMs 可能会暴露敏感信息。在这项工作中，我们检查了 FM 威胁模型，并讨论了各种保护措施的实用性和全面性，例如基于 ML 的方法和可信执行环境 (TEEs)。我们证明了 TEEs 在强大的安全特性、可用性和性能之间取得了有效的平衡。具体来说，我们提出了一种解决方案，与在 \intel\ SGX 和 \intel\ TDX 中运行的完整的 Llama2 7B 和 13B 推理管道相比，其开销不到 10%。我们还分享了我们的配置文件和实施过程中的见解。据我们所知，我们的工作是第一个证明 TEEs 在保护 FMs 方面的实用性的工作。

发布时间: 10/10/2024

查看原文

超越图像描述：面向数学推理的任务特定提示，提升视觉语言模型性能

作者: Ayush Singh, Mansi Gupta, Shivank Garg, Abhinav Kumar, Vansh Agrawal

视觉语言模型（VLMs）已经改变了需要视觉和推理能力的任务，例如图像检索和视觉问答（VQA）。尽管取得了成功，但 VLMs 在涉及几何推理、代数问题求解和计数的任务方面面临着重大挑战。这些局限性源于有效整合多种模态和准确解释几何相关任务的困难。各种研究表明，在 VQA 任务之前引入一个字幕管道可以提高性能。我们在涉及几何、代数和计数的任务中整合了这个管道。我们发现字幕结果不可推广，特别是对于主要在 VQA 任务上进行训练的大型 VLMs，它们在与数学相关的挑战中表现出随机性能。然而，我们提出了一个有希望的替代方案：基于任务的提示，用特定于任务的指导来丰富提示。这种方法显示出希望，并且证明比直接字幕方法更有效地解决数学密集型问题。

发布时间: 10/10/2024

查看原文

FINALLY：快速、通用、录音棚级音质的语音增强

作者: Nicholas Babaev, Kirill Tamogashev, Azat Saginbaev, Ivan Shchekotov, Hanbin Bae, Hosang Sung, WonJun Lee, Hoon-Young Cho, Pavel Andreev

本文旨在解决现实世界录音中的语音增强问题，这些录音通常包含各种形式的失真，例如背景噪声、混响和麦克风伪影。我们重新审视了生成对抗网络 (GAN) 在语音增强中的应用，并从理论上证明 GAN 自然倾向于在条件干净语音分布中寻找最大密度点，我们认为这是语音增强任务的关键。我们研究了各种用于感知损失的特征提取器，以促进对抗训练的稳定性，并开发了一种探测特征空间结构的方法。这促使我们将基于 WavLM 的感知损失集成到 MS-STFT 对抗训练管道中，为语音增强模型创建了一种有效且稳定的训练程序。由此产生的语音增强模型（我们称之为 FINALLY）建立在 HiFi++ 架构之上，并辅以 WavLM 编码器和新颖的训练管道。在各种数据集上的实证结果证实了我们的模型在 48 kHz 下产生清晰、高质量语音的能力，在语音增强领域取得了最先进的性能。

发布时间: 10/10/2024

查看原文

给我一个提示：大型语言模型能否通过提示来解决数学问题？

作者: Vansh Agrawal, Pratham Singla, Amitoj Singh Miglani, Shivank Garg, Ayush Mangal

尽管许多最先进的 LLMs 在逻辑和基本数学推理方面表现不佳，但最近的研究尝试通过提示技术来提高它们的问题解决能力。我们借鉴人类数学教学方法，提出了一种通过提供“提示”来提高语言模型解决高级数学问题能力的方法。我们还测试了模型对错误提示的对抗鲁棒性。我们通过评估各种 LLMs，向它们提供来自 MATH 数据集的不同难度和主题的各种问题，并与单次提示、少量提示和思维链提示等技术进行比较，证明了我们方法的有效性。

发布时间: 10/10/2024

查看原文

加速纠错码Transformer

作者: Matan Levy, Yoni Choukroun, Lior Wolf

错误纠正码 (ECC) 在通信系统中确保可靠信息传输至关重要。Choukroun 和 Wolf (2022b) 最近推出了错误纠正码 Transformer (ECCT)，该模型在各种传输信道和编码家族中展现出令人鼓舞的性能。然而，与传统的解码算法相比，其高计算量和内存需求限制了其实际应用。由于 ECCT 本身结构小巧，因此实现有效的量化面临着重大挑战，因为现有的超低精度量化技术往往会导致紧凑型神经网络的性能下降。在本文中，我们提出了一种用于基于 Transformer 的解码器的新型加速方法。我们首先提出了一种专门针对 ECCT 的三值权重量化方法，它能生成一个没有乘法的线性层解码器。我们提出了一种优化的自注意力机制，通过代码感知的多头处理来降低计算复杂度。最后，我们通过 Tanner 图特征分解提供位置编码，从而实现更丰富的图连接表示。该方法不仅匹配或超越了 ECCT 的性能，而且还显著降低了能耗、内存占用和计算复杂度。我们的方法使基于 Transformer 的错误纠正更接近在资源受限环境中的实际应用，实现了 90% 的压缩率，并且在现代硬件上将算术运算能耗降低了至少 224 倍。

发布时间: 10/10/2024

查看原文

长文档自动摘要

作者: Naman Chhibbar, Jugal Kalita

每天都有大量文本数据被添加到互联网上，这使得利用和解读这些数据变得困难和繁琐。因此，自动文本摘要对于提取相关信息、节省宝贵的阅读时间至关重要。虽然许多基于 Transformer 的模型在摘要方面表现出色，但它们的输入大小受到限制，无法处理超过其上下文大小的文本。本研究提出了三种新颖的算法，允许任何 LLM 有效地克服其输入大小的限制，在没有任何架构修改的情况下有效地利用其全部潜力。我们在超过 70,000 个单词的文本上测试了我们的算法，实验结果表明 BERTScore 显着提高，ROUGE 分数具有竞争力。

发布时间: 10/10/2024

查看原文

小批量核 $k$ 均值聚类

作者: Ben Jourdan, Gregory Schwartzman

我们提出了首个**迷你批次核 k 均值算法**，与全批次算法相比，该算法的运行时间提升了一个数量级。我们算法的单次迭代需要 $\widetilde{O}(kb^2)$ 的时间，显著快于全批次核 k 均值算法所需的 $O(n^2)$ 时间，其中 $n$ 是数据集大小，$b$ 是批次大小。大量的实验表明，我们的算法在保持质量几乎无损的情况下，始终能实现 10-100 倍的加速，解决了核 k 均值算法在实践中因运行时间过长而难以推广的问题。我们进一步通过理论分析补充了这些结果，在提前停止条件下证明了，当批次大小为 $\widetilde{\Omega}(\max \{\gamma^{4}, \gamma^{2}\} \cdot \epsilon^{-2})$ 时，该算法以高概率在 $O(\gamma^2/\epsilon)$ 次迭代内终止，其中 $\gamma$ 是特征空间中点的范数上限，$\epsilon$ 是终止阈值。我们的分析适用于任何合理的中心初始化，当使用 k-means++ 初始化时，该算法在期望意义上实现了 $O(\log k)$ 的近似比。对于归一化核，例如高斯核或拉普拉斯核，$\gamma=1$ 成立。当取 $\epsilon = O(1)$ 和 $b=\Theta(\log n)$ 时，该算法在 $O(1)$ 次迭代内终止，每次迭代的运行时间为 $\widetilde{O}(k)$。

发布时间: 10/10/2024

查看原文

面向水质监测人工智能应用的自主水面无人艇原型

作者: Luis Miguel D\'iaz, Samuel Yanes Luis, Alejandro Mendoza Barrionuevo, Dame Seck Diop, Manuel Perales, Alejandro Casado, Sergio Toral, Daniel Guti\'errez

配备水质传感器和人工智能视觉系统的自主水面无人驾驶车辆的使用，使水资源环境监测能够智能化和自适应部署。本文介绍了一种车辆原型，该原型旨在解决人工智能算法和增强传感技术在水质监测中的应用。该车辆配备了高质量传感器，可以测量水质参数和水深。此外，通过立体相机，它还可以利用深度视觉模型（如 YOLOv5）在真实环境中检测和定位大型塑料。本文介绍了在马约尔湖（塞维利亚）进行的实验结果，证明了所提架构的功能。整个系统和获得的早期结果有望为水资源监测任务提供一个可靠的平台实例，并作为部署人工智能算法（如路径规划、人工智能视觉等）的真实案例场景。

发布时间: 10/10/2024

查看原文

基于深度学习的故障识别在状态监测中的应用

作者: Hariom Dhungana, Suresh Kumar Mukhiya, Pragya Dhungana, Benjamin Karic

基于振动的状态监测技术通常用于识别滚动轴承中的故障。故障检测程序的准确性和速度是状态监测中的关键性能指标。延迟在远程状态监测和时间敏感的工业应用中尤为重要。虽然大多数现有方法侧重于准确性，但对故障识别过程中的推理时间关注甚少。本文通过提出一种基于卷积神经网络 (CNN) 的滚动轴承实时故障识别方法来弥补这一差距。我们使用各种编码方法将原始振动信号编码成二维图像，并将这些图像与 CNN 一起用于对几种类型的轴承故障类型和尺寸进行分类。我们分析了故障识别精度和处理时间之间的相互作用。为了进行训练和评估，我们使用了轴承故障 CWRU 数据集。

发布时间: 10/10/2024

查看原文

MEXA：通过跨语言对齐评估以英语为中心的LLM的多语言性能

作者: Amir Hossein Kargaran, Ali Modarressi, Nafiseh Nikeghbal, Jana Diesner, Fran\c{c}ois Yvon, Hinrich Sch\"utze

以英语为中心的的大型语言模型 (LLM) 通常表现出强大的多语言能力。然而，这些模型的多语言性能仍然不清楚，并且尚未针对许多语言进行彻底评估。大多数多语言基准测试侧重于经典的自然语言处理任务，或者涵盖的语言数量很少。我们介绍了 MEXA，这是一种使用平行句子评估以英语为中心的预训练 LLM 的多语言能力的方法，这些句子可用于比现有下游任务更多的语言。MEXA 利用了以英语为中心的 LLM 在其中间层使用英语作为一种枢纽语言的事实。它使用平行句子计算英语和非英语语言之间的对齐，以评估语言理解从英语到其他语言的迁移。这种对齐可以用来估计模型在其他语言中的性能。我们使用各种平行数据集 (FLORES-200 和圣经)、模型 (Llama 家族、Gemma 家族、Mistral 和 OLMo) 以及已建立的下游任务 (Belebele、m-MMLU 和 m-ARC) 进行了研究。我们探索了在仅解码器模型中计算嵌入的不同方法。我们的结果表明，MEXA 在其默认设置下，在九个模型和两个平行数据集上，与三个已建立的下游任务的平均皮尔逊相关性达到 0.90 的统计学显着性。这表明 MEXA 是一种可靠的方法，可以用来估计以英语为中心的 LLM 的多语言能力，从而更清楚地了解其多语言潜力以及 LLM 的内部运作机制。排行榜：https://huggingface.co/spaces/cis-lmu/Mexa，代码：https://github.com/cisnlp/Mexa。

发布时间: 10/10/2024

查看原文