基础模型的出现彻底改变了各个领域,在计算语言学、计算机视觉等领域实现了前所未有的任务精度和灵活性。注意力机制因其捕获序列相关性的卓越能力而成为基础模型的重要组成部分。然而,随着上下文长度的增长,注意力机制会导致内存和计算的二次复杂度。尽管许多基于融合的精确注意力加速算法已针对利用多核并行性和数据局部性的数据中心级GPU和加速器而开发,但在计算单元有限且片上缓存严格的资源受限边缘神经加速器上加速注意力仍然是一个重大挑战。本文提出了一种在内存受限边缘加速器上进行精确注意力推理加速的方案,该方案通过并行利用异构计算单元(即矢量处理单元和矩阵处理单元)来实现。我们的方法包括在一个多层平铺方案中将工作负载调度到这些不同的计算单元上,以处理注意力中平铺的矢量工作负载和矩阵工作负载作为两个流,同时尊重工作负载依赖关系。我们搜索平铺因子以最大限度地提高两个计算单元的并行化,同时考虑I/O开销,并提出了一种主动缓存覆盖策略以避免实际中不必要的缓存溢出。基于开源模拟框架的大量结果表明,与边缘计算场景中最新的注意力融合方法(FLAT)相比,速度提高了高达2.75倍,能耗降低了54%。在真实世界边缘神经处理单元上的进一步实验表明,与FLAT相比,注意力的速度提高了高达1.76倍,而不会影响模型输出精度。
大型语言模型已取代众多自然语言处理任务中的传统方法。然而,在命名实体识别(NER)中,现有的基于大型语言模型的方法……
行为研究、人机交互和心理健康领域的应用都依赖于识别情绪的能力。为了提高使用脑电图 (EEG) 数据进行情绪识别的准确性,这项工作提出了一种混合量子深度学习技术。传统的基于脑电图的情绪识别技术受到噪声和高维数据复杂性的限制,这使得特征提取变得困难。为了解决这些问题,我们的方法将传统的深度学习分类与量子增强的特征提取相结合。为了识别重要的脑波模式,带通滤波和 Welch 方法被用作脑电图数据的预处理技术。通过将频带功率属性(δ波、θ波、α波和β波)映射到量子表示,捕获了确定情绪状态至关重要的复杂带间相互作用。混合量子电路中使用了纠缠门和旋转门,以最大限度地提高模型对与不同情绪相关的脑电图模式的敏感性。对测试数据集的评估结果令人鼓舞,表明该模型具有准确识别情绪的潜力。在未来的研究中,该模型将扩展到实时应用和多类别分类,这可以改进基于脑电图的心理健康筛查工具。该方法通过展示将传统深度学习与量子处理相融合以实现可靠、可扩展的情绪识别的可能性,为自适应人机系统和心理健康监测的应用提供了一种有前景的工具。
本文介绍了Llama Guard 3-1B-INT4,这是一个紧凑高效的Llama Guard模型,已在2024年Meta Connect期间开源。我们证明了Llama Guard 3-1B-INT4可以部署在资源受限的设备上,在普通Android手机CPU上实现至少每秒30个token的吞吐量和2.5秒或更短的首个token响应时间。值得注意的是,我们的实验表明,尽管Llama Guard 3-1B-INT4的大小约小7倍(440MB),但其安全审核得分与更大的对应模型Llama Guard 3-1B相当甚至更好。
6G 愿景旨在将先进智能嵌入网络并使其更贴近用户,这需要对边缘设备上的生成式人工智能 (GenAI) 模型进行系统评估。基于开放式无线接入网 (ORAN) 和“网络一体机”的快速涌现的解决方案强烈主张使用低成本的现成组件来简化和提高部署效率,例如在提供农村连接方面。在这种情况下,大型语言模型 (LLM) 在现成边缘设备上的概念架构、硬件测试平台和精确性能量化在很大程度上仍未得到探索。本研究调查了在单个商品树莓派上进行计算密集型 LLM 推理的情况,该树莓派作为 ORAN 的边缘测试平台。我们使用轻量级 Kubernetes 分布式系统 (K3s) 和模块化提示实现,在一个树莓派 5 集群上研究了各种 LLM,包括小型、中型和大型模型。我们通过分析吞吐量、延迟、准确性和效率来研究其可行性和局限性。我们的研究结果表明,仅 CPU 部署轻量级模型(如 Yi、Phi 和 Llama3)可以有效支持边缘应用,实现 5 到 12 个令牌/秒的生成吞吐量,CPU 和 RAM 使用率低于 50%。我们得出结论,边缘上的 GenAI 在 6G 网络中无需依赖云基础设施即可在远程或带宽受限的环境中提供本地推理。
心电图 (ECG) 作为一种无创且经济的的心脏监测工具,在检测急性心脏病发作方面高度敏感。然而,由于心电图记录时间较长,许多机器学习方法被开发用于自动化心脏病检测以减轻人工负担。尽管做出了这些努力,但性能仍然不够理想。一个关键障碍是心电图数据的固有复杂性,包括异质性(例如,采样率变化)、高噪声水平、与人口统计相关的模式偏移以及复杂的节律事件关联。为了克服这些挑战,本文介绍了 AnyECG,这是一种旨在从任何真实世界心电图数据中提取鲁棒表示的基础模型。具体来说,定制的心电图分词器将每个固定持续时间的 ECG 片段编码成一个标记,并在代理任务的指导下,将噪声的连续 ECG 特征转换为离散的、紧凑的且具有临床意义的局部节律代码。这些代码包含基本的形态学、频率和人口统计信息(例如,性别),有效地减轻了信号噪声。我们进一步预训练 AnyECG 来学习 ECG 标记之间的节律模式关联,从而能够捕获心脏事件语义。通过在不同的 ECG 数据源上联合预训练,AnyECG 能够泛化到各种下游任务,其中 ECG 信号记录自各种设备和场景。异常检测、心律失常检测、损坏导联生成和超长 ECG 信号分析的实验结果表明,AnyECG 从数据中学习了通用的 ECG 知识,并在每个各自的任务中显著优于最先进的方法。
本文关注核电站(NPP)反应堆冷却系统、主蒸汽系统、凝结水系统和主给水系统中重要机械部件(如泵、阀门和管道)的故障。它提出了一种基于贝叶斯算法和EfficientNet大型模型的复合多故障诊断模型,该模型使用数据驱动的深度学习故障诊断技术。其目标是通过迁移学习评估基于深度学习的大型模型技术在核电站场景中的有效性。
基于脑电图的运动想象分类是脑机接口(BCI)技术中一项关键且具有挑战性的任务,它在帮助功能障碍患者恢复行动能力方面发挥着重要作用。我们提出了一种新颖的多尺度空洞卷积神经网络(CNN)模型,称为EEG-空洞卷积网络(DCNet),以提高基于脑电图的运动想象分类任务的准确性和效率。我们在EEG-DCNet中结合了1×1卷积层,并利用多分支并行空洞卷积架构来捕捉脑电信号的高度非线性特征和多尺度特征。此外,我们利用滑动窗口来增强时间一致性,并利用注意力机制来提高识别用户意图的准确性。实验结果(通过BCI-IV-2a、BCI-IV-2b和高伽马数据集)表明,EEG-DCNet在分类准确率和Kappa系数方面优于现有的最先进(SOTA)方法。此外,由于EEG-DCNet需要的参数较少,因此训练效率和内存消耗也得到了提高。实验代码已开源,地址为\href{https://github.com/Kanyooo/EEG-DCNet}{此处}。
近年来,自回归多模态大型语言模型 (MLLM) 的进步在视觉语言任务中展现出令人鼓舞的前景。虽然已有大量研究调查大型语言模型中语言信息的处理方式,但目前对 MLLM 的内部工作机制以及语言和视觉信息如何在这些模型中交互作用知之甚少。本研究旨在通过检查 MLLM 中不同模态(语言和视觉)之间的信息流来填补这一空白,重点关注视觉问答。具体来说,给定图像-问题对作为输入,我们研究模型中的哪个位置以及视觉和语言信息如何结合以生成最终预测。通过对 LLaVA 系列的一系列模型进行实验,我们发现两种模态整合的过程中存在两个不同的阶段。在较低层,模型首先将整个图像的更一般的视觉特征转移到(语言)问题标记的表示中。在中间层,它再次将与问题相关的特定对象的视觉信息转移到问题的相应标记位置。最后,在较高层,将生成的多分辨率表示传播到输入序列的最后位置以进行最终预测。总的来说,我们的研究结果为 MLLM 中图像和语言处理的时空和功能方面提供了新的、全面的视角,从而促进了未来对多模态信息定位和编辑的研究。
大型语言模型 (LLM) 在各种任务中展现出令人印象深刻的能力。然而,LLM 常常难以进行空间推理,而空间推理是推理和推断的一个重要组成部分,需要理解空间中物体之间复杂的关系。本文提出了一种新颖的神经符号框架,以增强LLM的空间推理能力。我们在两个基准数据集上评估了我们的方法:StepGame 和 SparQA,并实现了三种不同的策略:(1) 基于答案集编程 (ASP) 的符号推理;(2) 使用 DSPy 的 LLM + ASP 管道;(3) 事实 + 逻辑规则。我们的实验表明,与基线提示方法相比,该方法取得了显著的改进,在 StepGame 数据集上的准确率提高了 40-50%,在更复杂的 SparQA 数据集上提高了 3-13%。"LLM + ASP" 管道在寻找关系 (FR) 和寻找块 (FB) 问题任务上取得了特别好的结果,尽管性能在不同类型的题型中有所不同。令人印象深刻的结果表明,虽然神经符号方法为增强 LLM 的空间推理能力提供了有前景的方向,但其有效性在很大程度上取决于具体的任务特征和实现策略。我们提出了一种集成、简单而有效的策略集,使用神经符号管道来增强LLM的空间推理能力。这种管道及其策略证明了其在LLM其他推理领域(如时间推理、演绎推理等)的强大和更广泛的适用性。