arXiv 论文列表

作者: Richard Yue, John E. Ortega, Kenneth Ward Church

专业译员将文档从源语言（SL）翻译成目标语言（TL）的典型工作流程并不总是专注于自然语言处理（NLP）中许多语言模型所做的工作——预测一系列词语中的下一个词。虽然据报道，英语和法语等资源丰富的语言在使用 BLEU 和 COMET 等常见的度量指标进行测量时，已接近人类水平，但我们发现一个重要的步骤被忽略了：专业术语的翻译，特别是缩略词。一些最先进的机器翻译系统，如公开可用的谷歌翻译，在处理缩略词时可能会出错——根据我们的发现，错误率高达 50%。本文通过为 SL-TL（FR-EN）翻译工作流程提出一个额外的步骤来解决 MT 系统的缩略词消歧问题，我们首先提供一个新的缩略词语料库供公众使用，然后实验一个基于搜索的阈值算法，该算法与谷歌翻译和 OpusMT 相比，实现了近 10% 的提升。

发布时间: 9/27/2024

查看原文

基于深度学习的机器翻译中利用翻译记忆预测锚定文本

作者: Richard Yue, John E. Ortega

翻译记忆库（TM）是称为计算机辅助翻译（CAT）工具的专业翻译工具的核心。为了使用 CAT 工具进行翻译，译者使用 TM 收集与待翻译的片段 (s') 类似的翻译。许多 CAT 工具提供模糊匹配算法来定位 TM 中与 s' 距离接近的片段 (s)。在定位到两个相似片段后，CAT 工具将呈现包含源语言中一个片段及其目标语言翻译的平行片段 (s, t)。此外，CAT 工具包含模糊匹配修复 (FMR) 技术，这些技术将自动使用 TM 中的平行片段来创建新的 TM 条目，其中包含原始片段的修改版本，其想法是它将是 s' 的翻译。大多数 FMR 技术使用机器翻译作为“修复”那些必须修改的词语的一种方式。在本文中，我们展示了对于那些固定词语的大部分，我们可以使用其他基于机器学习方法的技术，例如 Word2Vec、BERT，甚至 ChatGPT。具体来说，我们展示了对于遵循连续词袋 (CBOW) 范式的固定词语，Word2Vec、BERT 和 GPT-4 可以用于实现与神经机器翻译相似的，在某些情况下甚至更好的结果，用于将法语固定词语翻译成英语。

发布时间: 9/27/2024

查看原文

智能能源管理：基于深度学习和物联网的剩余使用寿命预测与充电自动化系统

作者: Biplov Paneru, Bishwash Paneru, DP Sharma Mainali

电池剩余使用寿命 (RUL) 是一个重要的参数，用于了解电池的剩余寿命以及是否需要充电。本研究项目的目的是开发基于机器学习的电池 RUL 数据集模型。开发了不同的机器学习模型来对车辆的 RUL 进行分类，并模拟了物联网 (IoT) 概念，以实现充电系统的自动化并管理任何对齐的故障。绘制的图表使用 Blynk 物联网平台描绘了不同车辆参数之间的关系。结果表明，开发的 Catboost、多层感知器 (MLP)、门控循环单元 (GRU) 和混合模型可以将 RUL 分为三个类别，准确率超过 99%。数据使用 tkinter GUI 输入，用于模拟基于人工智能 (AI) 的充电，并使用 pyserial 后端，数据可以输入到 Esp-32 微控制器中，使模型预测的充电和放电成为可能。此外，通过物联网系统，可以断开充电连接、监控和分析以实现自动化。结果表明，MLP、Catboost 模型可以达到 99% 的准确率，GRU 模型也可以达到类似的准确率，最终可以通过模型预测进行继电器触发，以实现充电和节能机制的自动化。通过展示基于 Blynk 平台的监控和自动化现象的典范，我们进一步展示了监控参数和自动化系统的创新方法。

发布时间: 9/27/2024

查看原文

文本到图像知识编辑中开创可靠评估：利用细粒度数据集和创新标准

作者: Hengrui Gu, Kaixiong Zhou, Yili Wang, Ruobing Wang, Xin Wang

在预训练阶段，文本到图像（T2I）扩散模型将事实性知识编码到其参数中。这些参数化的知识使模型能够生成逼真的图像，但随着时间的推移，它们可能会过时，从而错误地反映当前的世界状况。知识编辑技术旨在以目标导向的方式更新模型知识。然而，由于编辑数据集不足和评估标准不可靠的双重挑战，T2I 知识编辑的发展在有效推广注入知识方面遇到了困难。在这项工作中，我们设计了一个 T2I 知识编辑框架，该框架全面涵盖了三个阶段：首先，我们整理了一个名为 **CAKE** 的数据集，包含释义和多对象测试，以对知识泛化进行更细致的评估。其次，我们提出了一种新颖的标准，**自适应 CLIP 阈值**，以有效地过滤掉当前标准下错误成功的图像，并实现可靠的编辑评估。最后，我们引入了 **MPE**，一种简单但有效的 T2I 知识编辑方法。MPE 不是调整参数，而是精确识别和编辑条件文本提示的过时部分，以适应最新的知识。MPE 的直接实现（基于上下文学习）表现出比以前模型编辑器更好的整体性能。我们希望这些努力能够进一步促进对 T2I 知识编辑方法的忠实评估。

发布时间: 9/27/2024

查看原文

幻影LiDAR：针对LiDAR的跨模态信号注入攻击

作者: Zizhi Jin, Qinhong Jiang, Xuancun Lu, Chen Yan, Xiaoyu Ji, Wenyuan Xu

激光雷达（LiDAR）是自动驾驶的关键传感器，提供精确的 3D 空间信息。以往针对 LiDAR 系统的信号攻击主要利用激光信号。本文研究了跨模态信号注入攻击的可能性，即注入故意电磁干扰 (IEMI) 来操纵 LiDAR 输出。我们的见解是，LiDAR 的内部模块，即激光接收电路、监控传感器和光束转向模块，即使经过严格的电磁兼容性 (EMC) 测试，仍然可能与 IEMI 攻击信号耦合，导致 LiDAR 系统出现故障。基于上述攻击面，我们提出了 PhantomLiDAR 攻击，它在点干扰、点注入、点移除，甚至 LiDAR 断电方面操纵 LiDAR 输出。我们使用模拟和现实世界实验对五种现成 (COTS) LiDAR 系统评估并证明了 PhantomLiDAR 的有效性。我们还在现实世界的移动场景中进行了可行性实验。我们提供了可以在传感器级别和车辆系统级别实施的潜在防御措施，以减轻与 IEMI 攻击相关的风险。视频演示可在 https://sites.google.com/view/phantomlidar 上查看。

发布时间: 9/27/2024

查看原文

基于自监督表示的语音和音乐情感声学相似性再探

作者: Yujia Sun, Zeyu Zhao, Korin Richmond, Yuanchao Li

语音和音乐的情感识别由于其声学重叠而具有相似性，这引起了人们对在这些领域之间转移知识的兴趣。然而，语音和音乐之间共享的声学线索，特别是那些由自监督学习 (SSL) 模型编码的线索，在很大程度上尚未得到探索，因为语音和音乐的 SSL 模型很少应用于跨领域研究。在这项工作中，我们重新审视了情感语音和音乐之间的声学相似性，从分析语音情感识别 (SER) 和音乐情感识别 (MER) 的 SSL 模型的层级行为开始。此外，我们通过比较两阶段微调过程中的几种方法来进行跨领域适应，考察了有效利用音乐进行 SER 和利用语音进行 MER 的方法。最后，我们使用 Frechet 音频距离来探索情感语音和音乐之间的声学相似性，揭示了语音和音乐 SSL 模型中情感偏差的问题。我们的发现表明，虽然语音和音乐 SSL 模型确实捕获了共享的声学特征，但由于其训练策略和领域特异性，它们的行为可能会因不同情感而异。此外，参数高效微调可以通过利用彼此的知识来提高 SER 和 MER 性能。这项研究提供了对情感语音和音乐之间声学相似性的新见解，并突出了跨领域泛化以改进 SER 和 MER 系统的潜力。

发布时间: 9/27/2024

查看原文

为什么公司要“民主化”人工智能：开源软件捐赠的案例

作者: Cailean Osborne

当公司将人工智能开源软件 (OSS) 捐赠给非营利基金会或发布人工智能模型等时，他们声称要“民主化”人工智能 (AI)，但这个词语意味着什么？他们为什么要这样做？随着人工智能对社会和经济的影响不断扩大，了解人工智能民主化努力背后的商业动机对于确保这些努力服务于超越商业议程的更广泛利益至关重要。为此，本研究采用混合方法来调查 43 个 AI OSS 捐赠给 Linux 基金会的商业动机。它对研究和实践都做出了贡献。它贡献了一个分类法，包括个人和组织在人工智能民主化方面的社会、经济和技术动机。特别是，它强调了民主化 OSS 项目的治理和控制权（即从一家公司到开放治理）作为下游目标的结构性推动因素，例如吸引外部贡献者、降低开发成本和影响行业标准等。此外，OSS 捐赠通常由公司内部的个人开发人员倡导，突出了自下而上的人工智能民主化动机的重要性。该分类法提供了一个框架和工具包，用于识别其他人工智能民主化努力的动机，例如发布人工智能模型。本文最后讨论了未来的研究方向。

发布时间: 9/27/2024

查看原文

GPU 张量核心上大型语言模型的高效任意精度加速

作者: Shaobo Ma, Chao Fang, Haikuo Shao, Zhongfeng Wang

大型语言模型（LLM）已被广泛应用，但在高效推理方面面临挑战。虽然量化方法降低了计算需求，但由于 GPU Tensor Core 支持有限且内存管理效率低下，超低比特量化在任意精度方面受到阻碍，导致加速效果不佳。为了解决这些挑战，我们提出了一种针对任意精度 LLM 的全面加速方案。其核心是，我们引入了一种新颖的双极性-INT 数据格式，该格式有助于并行计算并支持对称量化，有效地减少数据冗余。在此基础上，我们实现了一种任意精度矩阵乘法方案，该方案在位级对矩阵进行分解和恢复，从而在最大限度地利用 GPU Tensor Core 的同时实现灵活的精度。此外，我们开发了一种高效的矩阵预处理方法，该方法优化了数据布局以用于后续计算。最后，我们设计了一个面向数据恢复的内存管理系统，该系统战略性地利用快速共享内存，显着提高内核执行速度并最大程度地减少内存访问延迟。实验结果表明，我们的方法非常有效，与 NVIDIA 的 CUTLASS 相比，矩阵乘法的速度提高了 13 倍。当集成到 LLM 中时，我们实现了高达 6.7 倍的推理加速。这些改进显着提高了 LLM 推理效率，使 LLM 的应用范围更广，响应能力更强。

发布时间: 9/27/2024

查看原文

北欧-波罗的海联合健康数据网络的实施：案例报告

作者: Taridzo Chomutare, Aleksandar Babic, Laura-Maria Peltonen, Silja Elunurm, Peter Lundberg, Arne J\"onsson, Emma Eneling, Ciprian-Virgil Gerstenberger, Troels Siggaard, Raivo Kolde, Oskar Jerdhaf, Martin Hansson, Alexandra Makhlysheva, Miroslav Muzny, Erik Ylip\"a\"a, S{\o}ren Brunak, Hercules Dalianis

背景：跨国界集中收集和处理医疗数据存在重大挑战，包括隐私问题、数据异质性和法律障碍。为了解决其中一些挑战，我们组建了一个跨学科联盟，开发了一个联邦医疗数据网络，该网络由五个国家/地区的六个机构组成，以促进北欧-波罗的海地区在健康数据二次利用方面的合作。本报告的目的是提供我们开发该网络的早期见解。方法：我们采用了一种混合方法，结合实验设计和实施科学来评估影响我们网络实施的因素。结果：从技术上讲，我们的实验表明，与集中式模拟相比，该网络运行没有明显的性能下降。结论：虽然使用跨学科方法有可能解决与建立此类协作网络相关的挑战，但我们的发现将重点放在了正在追赶的不确定监管环境以及巨大的运营成本上。

发布时间: 9/27/2024

查看原文

面向冷启动和缺失模态场景的多模态单分支嵌入网络

作者: Christian Ganh\"or, Marta Moscati, Anna Hausberger, Shah Nawaz, Markus Schedl

大多数推荐系统采用协同过滤 (CF) 并根据过去的集体交互提供推荐。因此，当交互很少或没有交互时，CF 算法的性能会下降，这种情况被称为冷启动。为了解决这个问题，以前的工作依赖于利用用户或商品的协同数据和侧信息的模型。类似于多模态学习，这些模型旨在将协同表示和内容表示组合在共享嵌入空间中。在这项工作中，我们提出了一种用于多模态推荐的新技术，该技术依赖于用于推荐的多模态单分支嵌入网络 (SiBraR)。利用权重共享，SiBraR 使用相同的单分支嵌入网络对不同模态上的交互数据以及多模态侧信息进行编码。这使得 SiBraR 在模态缺失的情况下（包括冷启动）非常有效。我们在来自三个不同推荐领域（音乐、电影和电子商务）的大规模推荐数据集上的大量实验表明，SiBraR 在冷启动场景中显著优于 CF 以及最先进的基于内容的 RS，并且在暖启动场景中具有竞争力。我们表明，SiBraR 的推荐在模态缺失场景中是准确的，并且该模型能够将不同的模态映射到共享嵌入空间的同一区域，从而减少模态差距。

发布时间: 9/27/2024

查看原文