arXiv 论文列表

自闭症诊断的可解释人工智能：利用 fMRI 数据识别关键脑区

早期诊断和干预自闭症谱系障碍 (ASD) 已被证明可以显著提高自闭症个体的生命质量。然而，ASD 的诊断方法依赖于基于临床表现的评估，这些评估容易受到偏差的影响，并且可能难以在早期做出诊断。因此，需要客观性的 ASD 生物标记物来帮助提高诊断准确性。深度学习 (DL) 在利用医学影像数据诊断疾病和病症方面取得了优异的成果。人们进行了大量研究，旨在创建使用静息态功能性磁共振成像 (fMRI) 数据对 ASD 进行分类的模型。然而，现有的模型缺乏可解释性。本研究旨在通过创建一种 DL 模型来提高 ASD 诊断的准确性和可解释性，该模型不仅可以准确地对 ASD 进行分类，还可以提供其工作机制的可解释性见解。所使用的数据集是 Autism Brain Imaging Data Exchange (ABIDE) 的预处理版本，包含 884 个样本。我们的研究结果表明，该模型可以准确地对 ASD 进行分类，并突出显示 ASD 和典型对照组之间存在差异的关键脑区，这可能对早期诊断和理解 ASD 的神经基础具有潜在意义。这些发现得到了文献中使用不同数据集和模态的研究的验证，证实该模型确实学习了 ASD 的特征，而不仅仅是数据集本身。本研究通过提供一个健壮且可解释的模型，推动了医学影像中可解释人工智能领域的发展，从而为未来客观可靠的 ASD 诊断做出贡献。

发布时间: 9/25/2024

查看原文

基于锯齿闪光注意机制提升大规模推荐系统性能和可扩展性

硬件加速器的集成显著提升了现代推荐系统的功能，使其能够探索以前被认为不切实际的复杂排序范式。然而，基于 GPU 的计算成本带来了巨大的挑战。本文展示了我们开发的一种效率驱动的探索这些范式的方案，超越了对原生 PyTorch 模块的传统依赖。我们解决了排序模型对长度可变的类别特征的依赖所带来的特定挑战，这些特征会使 GPU 利用率复杂化。我们引入了锯齿特征交互内核，这是一种新颖的方法，旨在通过有效处理动态大小的张量从长类别特征中提取细粒度的见解。我们通过将锯齿张量与闪光注意机制相结合，进一步提高了注意机制的性能。我们的新型锯齿闪光注意机制与密集注意机制相比，速度提高了 9 倍，内存减少了 22 倍。值得注意的是，它也优于密集闪光注意机制，速度提高了 3 倍，内存效率提高了 53%。在生产模型中，我们观察到 QPS 提高了 10%，内存节省了 18%，使我们能够扩展具有更长特征和更复杂架构的推荐系统。

发布时间: 9/25/2024

查看原文

骨骼：用于大型语言模型的参数高效微调方法——块仿射变换

随着大型语言模型 (LLM) 的规模不断增长，其计算和内存需求也相应增加。因此，探索经济高效且有效的微调方法变得越来越重要。低秩自适应 (LoRA) 通过冻结原始权重并仅训练低秩矩阵，取得了显著的训练结果，成为 LLM 微调的主要方法。为了追求更接近全参数训练的性能，一系列 LoRA 变体应运而生，例如 LoRA+、PISSA、Olora 和 LoRA-GA。然而，这些方法也使微调初始化过程更加复杂，并且要超越全微调的性能上限仍然具有挑战性。为了解决这些问题，本文提出了一种名为 Bone（块仿射）的创新方法，该方法不仅减少了内存开销，而且还强调了权重之间的内部连接，从而导致更快的收敛和更好的数据拟合。在两种不同的 LLM 架构（LLaMA2、RWKV6）和各种参数尺度上的实验比较表明，Bone 结构可以实现快速收敛和优越的数据拟合，而无需复杂的初始化。例如，在 MetaMathQA 数据集上微调 LLaMA2-7B，并在 GSM8k 和数学基准上进行验证时，Bone 的微调分数分别为 49.36 和 8.8，分别比 PISSA 高出 5.84% 和 1.96%。

发布时间: 9/25/2024

查看原文

微笑：面向分子基础模型的原子级完备分词器

分子基础模型正在成为加速分子设计、材料科学和化学信息学的强大工具，它们利用 Transformer 架构来加速新材料和药物的发现，同时降低传统从头算方法的计算成本。然而，目前的模型受到封闭词汇量标记器的限制，这些标记器无法捕捉到分子结构的全部多样性。在这项工作中，我们系统地评估了 13 种化学专用标记器对 SMILES 语言的覆盖范围，揭示了巨大的差距。利用 N 元语言模型，我们评估了标记器选择对模型性能的影响，并量化了未知标记的信息损失。我们引入了两个新的标记器，smirk 和 smirk-gpe，它们可以表示完整的 OpenSMILES 规范，同时避免了现有标记器的缺陷。我们的工作强调了开放词汇量建模对于分子基础模型的重要性，以及化学信息学需要化学多样化的基准。

发布时间: 9/25/2024

查看原文

几何关系嵌入

关系表示学习将关系数据转换为连续的低维向量表示。然而，基于向量的表示在捕捉关系数据的复杂和符号性质方面存在不足。我们提出了几何关系嵌入，这是一种关系嵌入范式，它尊重底层的符号结构。具体来说，本论文介绍了各种几何关系嵌入模型，能够捕捉：1）网络和知识图中层次结构和循环等复杂结构化模式；2）本体中的逻辑结构和适用于约束机器学习模型输出的逻辑约束；以及 3）实体和关系之间的高阶结构。我们从基准数据集和真实世界数据集获得的结果证明了几何关系嵌入在熟练地捕捉关系数据中固有的离散、符号和结构化属性方面的有效性。

发布时间: 9/25/2024

查看原文

MedCodER：一款用于医学编码的生成式 AI 助手

医疗编码对于标准化临床数据和沟通至关重要，但通常耗时且易出错。传统的自然语言处理 (NLP) 方法由于标签空间庞大、文本输入冗长以及缺乏支持证据注释来证明代码选择的合理性，因此难以实现自动编码。生成式人工智能 (AI) 的最新进展为应对这些挑战提供了有希望的解决方案。在这项工作中，我们介绍了 MedCodER，一种用于自动医疗编码的生成式 AI 框架，它利用提取、检索和重新排序技术作为核心组件。MedCodER 在国际疾病分类 (ICD) 代码预测方面取得了 0.60 的微观 F1 分数，显著优于最先进的方法。此外，我们还提供了一个新的数据集，其中包含带有疾病诊断、ICD 代码和支持证据文本的医疗记录 (https://doi.org/10.5281/zenodo.13308316)。消融测试证实，MedCodER 的性能取决于其上述每个组件的集成，因为当这些组件单独评估时，性能会下降。

发布时间: 9/25/2024

查看原文

基于 Wasserstein 损失的时序基础模型微调

受自然语言处理 (NLP) 中大型语言模型 (LLM) 的最新进展启发，人们对开发用于时间序列预测的基础模型的研究兴趣激增。一种方法是使用交叉熵损失对标记化的时间序列数据训练 LLM 架构。尽管这种方法已经展现出令人鼓舞的结果，但交叉熵损失主要用于分类任务，并未考虑类别之间的距离。为了解决这一限制，我们建议在这种架构中使用 Wasserstein 损失。为了验证我们的方法，我们在 $22$ 个零样本数据集上微调了一个基础时间序列模型，比较了交叉熵损失与 Wasserstein 损失的性能。我们的结果表明，用 Wasserstein 损失替换交叉熵损失显着提高了点估计。

发布时间: 9/25/2024

查看原文

基于语言模型的轨迹异常检测

本文提出了一种利用自回归因果注意力模型进行轨迹异常检测的新方法，称为 LM-TAD。该方法利用语言语句和轨迹之间的相似性，两者都由需要通过外部规则和上下文变化保持一致的有序元素组成。通过将轨迹视为一系列标记，我们的模型学习了轨迹的概率分布，从而能够高精度地识别异常位置。我们加入了用户特定的标记来考虑个人的行为模式，增强了针对用户上下文的异常检测。我们的实验证明了 LM-TAD 在合成数据集和真实世界数据集上的有效性。特别是，该模型在 Pattern of Life (PoL) 数据集上优于现有方法，能够检测用户上下文异常，并在 Porto 出租车数据集上取得了具有竞争力的结果，突出了其适应性和鲁棒性。此外，我们引入了困惑度和意外率指标来检测异常值并精确定位轨迹中特定的异常位置。LM-TAD 框架支持各种轨迹表示，包括 GPS 坐标、停留点和活动类型，证明了其在处理各种轨迹数据方面的通用性。此外，我们的方法非常适合在线轨迹异常检测，通过缓存注意力机制的关键值状态，显著减少了计算延迟，从而避免了重复计算。

发布时间: 9/25/2024

查看原文

前向前向算法的新颖显著性分析

将前向前向算法融入神经网络训练，代表着从传统方法向一种变革性转变，引入了双前向机制，通过绕过导数传播的复杂性来简化学习过程。这种方法以其简单性和效率而闻名，它涉及执行两个前向传递：第一个使用实际数据以促进正向强化，第二个使用合成生成的负向数据以实现判别式学习。我们的实验证实，前向前向算法不仅仅是一个实验性的新奇事物，而是一种可行的训练策略，可以与传统的**多层感知器 (MLP)** 架构进行强有力地竞争。为了克服传统显著性技术固有的局限性（主要依赖于基于梯度的方法），我们开发了一种专门针对前向前向框架的定制显著性算法。这种创新算法增强了对特征重要性和网络决策的直观理解，提供了模型预测中最具影响力的数据特征的清晰可视化。通过利用这种专门的显著性方法，我们对模型的内部运作有了更深入的了解，显著增强了我们的解释能力，超越了标准方法提供的解释能力。我们的评估利用 MNIST 和 Fashion MNIST 数据集，表明我们的方法与传统的基于 MLP 的模型具有可比性。

发布时间: 9/25/2024

查看原文

VERA：检索增强系统的验证与增强

大型语言模型（LLM）展现出非凡的能力，但由于它们仅仅依赖于自身嵌入的知识，因此经常会产生不准确的响应。检索增强生成（RAG）通过整合外部信息检索系统来增强LLM，在查询中提供额外的上下文，以减轻特定上下文中的不准确性。然而，准确性问题仍然存在，因为模型可能依赖于不相关的文档或从其训练知识中错误地推断。为了评估和改进RAG框架中检索系统和LLM的性能，我们提出了**VERA**（**V**alidation and **E**nhancement for **R**etrieval **A**ugmented systems），这是一个旨在：1) 评估和增强响应生成之前的检索上下文，以及 2) 评估和优化LLM生成的响应以确保精确度并最大程度地减少错误的系统。VERA采用了一个评估器兼增强器LLM，它首先检查是否需要外部检索，评估检索上下文的相关性和冗余性，并对其进行优化以消除不必要的信息。在响应生成之后，VERA将响应分成原子语句，评估它们与查询的相关性，并确保它们符合上下文。我们的实验表明，VERA不仅在提高较小的开源模型的性能方面表现出非凡的功效，而且在提高更大规模的最新模型的性能方面也表现出色。这些增强突出了VERA在产生准确且相关的响应方面的潜力，推动了检索增强语言建模领域的最新进展。VERA的强大方法结合了多个评估和优化步骤，有效地减轻了幻觉并改进了检索和响应过程，使其成为需要在信息生成中实现高准确性和可靠性的应用的宝贵工具。

发布时间: 9/25/2024

查看原文