arXiv 论文列表

作者: Kaixuan Huang, Yukang Yang, Kaidi Fu, Yanyi Chu, Le Cong, Mengdi Wang

这项工作提出了 RNAdiffusion，一种用于生成和优化可变长度离散 RNA 序列的潜在扩散模型。RNA 是 DNA 和蛋白质之间的关键媒介，表现出高度的序列多样性和复杂的 3D 结构，以支持各种功能。我们利用预训练的 BERT 型模型将原始 RNA 序列编码为令牌级别的、具有生物学意义的表示。查询 Transformer 用于将这些表示压缩为一组固定长度的潜在向量，并训练了一个自回归解码器，从这些潜在变量重建 RNA 序列。然后，我们在该潜在空间中开发了一个连续扩散模型。为了实现优化，我们将奖励模型（RNA 功能属性的替代模型）的梯度集成到反向扩散过程中，从而生成具有高奖励分数的 RNA。实证结果证实，RNAdiffusion 生成的非编码 RNA 在各种生物指标上与自然分布一致。此外，我们对 mRNA 5' 非翻译区 (5'-UTR) 微调扩散模型，并优化序列以获得高翻译效率。我们的引导扩散模型有效地生成了具有高平均核糖体负载 (MRL) 和翻译效率 (TE) 的多样化 5'-UTR，在平衡奖励和结构稳定性权衡方面优于基线。我们的发现有潜力推动 RNA 序列-功能研究和治疗性 RNA 设计的发展。

发布时间: 10/3/2024

查看原文

TabKANet：基于Kolmogorov-Arnold网络和Transformer的表格数据建模

作者: Weihao Gao, Zheng Gong, Zhuo Deng, Fuju Rong, Chucheng Chen, Lan Ma

表格数据是现实生活中最常见的类型。本研究针对从数值内容中学习的瓶颈，提出了用于表格数据建模的 TabKANet 模型。我们构建了一个基于 Kolmogorov-Arnold 网络 (KAN) 的数值嵌入模块，并在 Transformer 架构中统一了数值和分类特征编码。与神经网络 (NN) 相比，TabKANet 在二元分类、多类分类和回归任务中表现出稳定且显著优越的性能，在多个公共数据集上都取得了优异的结果。其性能与梯度提升决策树模型 (GBDT) 相当或超过了 GBDT。我们的代码已在 GitHub 上公开发布：https://github.com/AI-thpremed/TabKANet。

发布时间: 10/3/2024

查看原文

脑电语言建模用于病理检测

作者: Sam Gijsen, Kerstin Ritter

多模态语言建模是最近取得的突破，它利用大型语言模型的进展来预训练功能强大的多模态模型。在预训练过程中整合自然语言已被证明可以显著提高学习到的表示，尤其是在计算机视觉方面。然而，多模态语言建模在功能性脑数据领域的有效性，特别是用于推进病理检测的有效性，尚未得到探索。本研究首创了在临床报告和 15000 个脑电图上训练的脑电图-语言模型。我们将多模态对齐方法扩展到这个新领域，并研究报告中的哪些文本信息对训练脑电图-语言模型有用。我们的结果表明，模型从接触各种报告片段（包括患者的临床病史、脑电图描述和医生的解释）中学习到更丰富的表示。与接触更窄的临床文本信息的模型相比，我们发现此类模型可以基于临床报告检索脑电图（反之亦然），并且准确率显著提高。然而，这只有在使用对比学习方法时才会观察到。特别是在注释很少的情况下，我们观察到脑电图-语言模型的表示与仅脑电图模型相比可以显著提高病理检测，如零样本分类和线性探测所证明的那样。总之，这些结果突出了将脑活动数据与临床文本相结合的潜力，表明脑电图-语言模型代表了临床应用的重大进步。

发布时间: 10/3/2024

查看原文

OneGen：面向大型语言模型的高效单次统一生成与检索

作者: Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang

尽管大型语言模型 (LLMs) 近年来取得了重大进展，显著增强了各种自然语言处理任务的生成能力，但它们在直接处理检索任务方面仍然存在局限性。然而，许多实际应用需要无缝集成检索和生成。本文提出了一种新颖且高效的一步生成和检索框架 (OneGen)，旨在提高 LLM 在需要生成和检索的双重任务上的性能。该框架通过整合自动回归生成的检索标记，弥合了传统上针对生成和检索的独立训练方法之间的差距。这使得单个 LLM 能够在统一的前向传递中同时处理这两个任务。我们在两种不同类型的复合任务（RAG 和实体链接）上进行了实验，以验证 OneGen 在训练和推理中的可插拔性、有效性和效率。此外，我们的结果表明，将生成和检索集成到同一个上下文中，既保留了 LLM 的生成能力，又提高了检索性能。据我们所知，OneGen 是第一个使 LLM 能够在生成过程中进行向量检索的框架。

发布时间: 10/3/2024

查看原文

医学影像中扫描仪域迁移对深度学习性能的影响：一项实验研究

作者: Brian Guo, Darui Lu, Gregory Szumel, Rongze Gui, Tingyu Wang, Nicholas Konz, Maciej A. Mazurowski

目的：使用不同扫描仪和协议获取的医学图像在外观上可能存在很大差异。这种现象，即扫描仪域偏移，会导致在一种扫描仪上获取的数据上训练并在另一种扫描仪上测试的深度神经网络的性能下降。这一重要的实际问题已被广泛认可，但目前还没有针对不同模态和诊断任务的系统研究。材料和方法：本文对卷积神经网络在不同自动诊断任务中的性能受扫描仪域偏移影响进行了广泛的实验研究。我们评估了这一现象在常见的放射学模态中的表现，包括 X 射线、CT 和 MRI。结果：我们发现，网络在不同扫描仪数据上的性能几乎总是比在相同扫描仪数据上的性能差，并且我们量化了不同数据集之间性能下降的程度。值得注意的是，我们发现这种下降在 MRI 中最为严重，在 X 射线中中等程度，在 CT 中平均而言非常小，我们将其归因于 CT 采集系统的标准化特性，而 MRI 或 X 射线则没有这种特性。我们还研究了在训练集中注入不同数量的目标域数据以及在训练数据中添加噪声如何帮助泛化。结论：我们的结果提供了广泛的实验证据和量化了深度学习在不同模态中由扫描仪域偏移引起的性能下降程度，旨在指导未来鲁棒深度学习模型在医学图像分析中的发展。

发布时间: 10/3/2024

查看原文

UI-JEPA：通过屏幕用户活动实现用户意图主动感知

作者: Yicheng Fu, Raviteja Anantha, Prabal Vashisht, Jianpeng Cheng, Etai Littwin

从用户界面 (UI) 动作序列中生成用户意图是全面理解 UI 的核心挑战。近年来，多模态大型语言模型 (MLLM) 的发展在这一领域取得了重大进展，但它们对大量模型参数、计算能力和高延迟的需求，使其不适用于需要轻量级、设备端解决方案、低延迟或高度隐私的场景。此外，高质量数据集的缺乏阻碍了此类轻量级模型的开发。为了应对这些挑战，我们提出了 UI-JEPA，这是一个新颖的框架，它利用掩蔽策略通过自监督学习从未标记数据中学习抽象 UI 嵌入，并结合为用户意图预测微调的 LLM 解码器。我们还引入了两个新的基于 UI 的多模态数据集，“野生意图” (IIW) 和“驯服意图” (IIT)，专为少量样本和零样本 UI 理解任务而设计。IIW 包含来自 219 个意图类别的 1.7K 个视频，而 IIT 包含来自 10 个类别的 914 个视频。我们为这些数据集建立了首个基线，表明使用 JEPA 风格目标学习的表示与 LLM 解码器相结合，可以实现与最先进的大型 MLLM 相匹配的用户意图预测，但注释和部署资源显著减少。根据意图相似度评分，UI-JEPA 在两个数据集上的平均性能分别比 GPT-4 Turbo 和 Claude 3.5 Sonnet 高出 10.0% 和 7.2%。值得注意的是，UI-JEPA 在 IIW 数据集中以 50.5 倍的计算成本降低和 6.6 倍的延迟改进实现了性能。这些结果强调了 UI-JEPA 的有效性，突出了其在轻量级、高性能 UI 理解方面的潜力。

发布时间: 10/3/2024

查看原文

规范化中丢失了什么？探索多语言自动语音识别模型评估中的陷阱

作者: Kavya Manohar, Leena G Pillai

本文探讨了评估多语言自动语音识别 (ASR) 模型的缺陷，特别关注印度语系脚本。我们调查了领先的 ASR 模型（包括 OpenAI Whisper、Meta 的 MMS、Seamless 和 Assembly AI 的 Conformer）采用的文本规范化程序及其对性能指标的意外影响。我们的研究表明，当前的文本规范化实践旨在通过消除拼写、标点符号和特殊字符的差异来标准化 ASR 输出，以便进行公平比较，但在应用于印度语系脚本时存在根本缺陷。通过使用文本相似度得分和深入的语言学检验进行的实证分析，我们证明了这些缺陷导致了印度语系语言的性能指标被人工提升。最后，我们建议转向开发利用本地语言学专长的文本规范化程序，以确保对多语言 ASR 模型进行更稳健和准确的评估。

发布时间: 10/3/2024

查看原文

客语之声：面向台湾客语的多语者文本转语音系统

作者: Li-Wei Chen, Hung-Shin Lee, Chen-Chi Chang

本文介绍了 VoxHakka，一个针对台湾客家语（一种在台湾使用人数极少的语言）的文本转语音（TTS）系统。VoxHakka 利用 YourTTS 框架，在语音合成中实现了高自然度和准确度以及低实时因子，同时支持六种不同的客家方言。这是通过使用方言特定数据训练模型来实现的，从而能够生成具有说话人意识的客家语音。为了解决公开可用的客家语音语料库的稀缺问题，我们采用了一种经济高效的方法，利用网络抓取管道结合自动语音识别（ASR）数据清洗技术。这一过程确保了获取高质量、多说话人、多方言的数据集，适用于 TTS 训练。使用比较平均意见得分 (CMOS) 进行的主观听力测试表明，VoxHakka 在发音准确性、音调正确性和整体自然度方面显著优于现有的公开可用的客家语 TTS 系统。这项工作代表了客家语技术的一项重大进步，并为语言保护和复兴工作提供了宝贵的资源。

发布时间: 10/3/2024

查看原文

CyberCortex.AI：面向自主机器人和复杂自动化的基于人工智能的操作系统

作者: Sorin Grigorescu, Mihai Zaha

控制自主机器人和复杂自动化应用的底层框架是能够调度感知和控制任务的操作系统（OS），并向其他机器人伙伴和远程云计算机提供实时数据通信。在本文中，我们介绍了 CyberCortex AI，这是一种旨在支持异构 AI 机器人和复杂自动化应用的机器人操作系统。CyberCortex AI 是一种去中心化的分布式操作系统，它使机器人能够相互通信，以及与云中的高性能计算机 (HPC) 通信。来自机器人的感官和控制数据被流式传输到 HPC 系统，用于训练 AI 算法，这些算法随后部署在机器人上。机器人的每个功能（例如，感官数据采集、路径规划、运动控制等）都在一个名为数据块的过滤器中执行，这些过滤器通过互联网共享，其中每个过滤器都在机器人本身本地计算，或者在不同的机器人系统上远程计算。数据通过一个名为时间可寻址存储器 (TAM) 进行存储和访问，它充当每个过滤器输入和输出之间的网关。CyberCortex.AI 具有两个主要组件：i) CyberCortex AI 推理系统，它是运行在机器人嵌入式硬件上的数据块的实时实现，以及 ii) CyberCortex AI 道场，它运行在云中的 HPC 计算机上，用于设计、训练和部署 AI 算法。我们使用两个协作机器人应用对所提出的方法进行了定量和定性性能分析：i) 基于 Unitree A1 腿式机器人和 Anafi Parrot 4K 无人机的森林火灾预防系统，以及 ii) 使用 CyberCortex.AI 进行协作感知和运动控制的自动驾驶系统。

发布时间: 10/3/2024

查看原文

快速陀螺仪校准：一种深度学习方法

作者: Yair Stolero, Itzik Klein

低成本陀螺仪校准对于确保陀螺仪测量值的准确性和可靠性至关重要。静止校准估计测量误差的确定性部分。为此，一种常见的做法是在预定义的时间段内对陀螺仪读数进行平均并估计陀螺仪偏差。校准时长对性能起着至关重要的作用，因此，更长的时长更可取。然而，某些应用需要快速启动时间，因此校准仅允许进行短时间。在这项工作中，我们专注于利用深度学习方法缩短低成本陀螺仪的校准时间。我们提出了一种深度学习框架，并探索了使用多个真实和虚拟陀螺仪来提高单个陀螺仪校准性能的可能性。为了训练和验证我们的方法，我们使用两个不同品牌的 24 个陀螺仪记录了一个包含 169 小时陀螺仪读数的数据集。我们还创建了一个包含模拟陀螺仪读数的虚拟数据集。这两个数据集被用来评估我们提出的方法。在这项工作中，我们取得的一个关键成果是使用三个低成本陀螺仪将陀螺仪校准时间缩短了高达 89%。

发布时间: 10/3/2024

查看原文