arXiv 论文列表

作者: Ashab Uddin, Ahmed Hamdi Sakr, Ning Zhang

arXiv:2502.06963v1 类型: cross 摘要：随着对智能交通系统（ITS）需求的增加，管理现代车辆生成的复杂且计算密集型任务带来了重大挑战，将任务卸载到边缘计算（EC）、附近车辆和无人机等外部计算基础设施已成为应对这些挑战的重要解决方案。然而，传统的计算卸载策略往往难以适应车辆环境的动态和异质性。在这项研究中，我们探讨了强化学习（RL）和深度强化学习（DRL）框架在通过适应性的实时决策优化计算卸载方面的潜力，并且我们全面研究了现有的Markov决策过程（MDP）方法。本文重点关注标准化的学习模型、优化的奖励结构和协作的多智能体系统，旨在推动DRL在车辆网络中的理解和应用。我们的发现为提高ITS的效率、可扩展性和鲁棒性提供了见解，并为这个快速发展的领域未来的创新奠定了基础。

发布时间: 2/12/2025

查看原文

基于邻域顺序学习的图注意力网络 Fake News 检测

作者: Batool Lakzaei, Mostafa Haghir Chehreghani, Alireza Bagheri

arXiv:2502.06927v1 Announce Type: cross 摘要：在数字时代，假新闻检测是一个重要的挑战，随着社交媒体和在线通信网络的普及，这一挑战变得越来越重要。基于图神经网络（GNN）的方法在分析此类问题的图结构数据方面显示出很高的潜力。然而，传统GNN架构的一个主要局限性在于它们无法有效地利用网络层深度之外的邻居信息，这会降低模型的准确性和有效性。在这篇论文中，我们提出了一种名为Neighborhood-Order Learning Graph Attention Network（NOL-GAT）的新模型，用于假新闻检测。该模型允许每层中的每个节点独立学习其最优邻域顺序。通过这种方式，模型可以有针对性地并有效地从远处邻居中提取关键信息。NOL-GAT架构包括两个主要组成部分：Hop Network，用于确定最优邻域顺序，以及Embedding Network，使用这些最优邻域更新节点嵌入。为了评估该模型的性能，在多种假新闻数据集上进行了实验。结果显示，与基线模型相比，NOL-GAT在准确率和F1分数等指标上显著表现出色，尤其是在标注数据有限的情景下。此外，缓解过度压缩问题、提高信息流通性和降低计算复杂度等特性进一步突显了所提出模型的优势。

发布时间: 2/12/2025

查看原文

奥卡姆模型：选择更简单的表示以获得更好的迁移性估计

作者: Prabhant Singh, Sibylle Hess, Joaquin Vanschoren

arXiv:2502.06925v1 宣告类型: cross 摘要：使用大规模数据集进行预训练的模型微调已成为现代机器学习工作流程的基石。随着在线模型仓库（如Hugging Face）的广泛应用，现在比以往任何时候都更容易为特定任务微调预训练模型。这引发了一个关键问题：哪个预训练模型最适合给定任务？这个问题被称为转移性估计。在这项工作中，我们引入了两种新颖且有效的衡量预训练模型转移性的指标。我们的方法将转移性视为衡量预训练模型表示能够容易地被训练以区分目标类别的程度的一种度量，从而为转移性估计提供了一个独特的视角。我们严格地将提出的方法与最先进的替代方法在多种问题设置下进行评估，展示了其稳健性和实用价值。此外，我们还提出了理论洞察，解释了这些指标的效用及其在各种场景下的适应性。实验证明，与最先进的基线方法相比，我们的指标可以使Kendall's Tau增加高达32%。

发布时间: 2/12/2025

查看原文

XAMBA: 在资源受限的神经处理单元上使能高效的态空间模型

作者: Arghadip Das, Arnab Raha, Shamik Kundu, Soumendu Kumar Ghosh, Deepak Mathaikutty, Vijay Raghunathan

arXiv:2502.06924v1 Announce Type: cross 摘要：状态空间模型（SSMs）已成为序列数据任务中变压器的高效替代方案，它们在序列长度上提供线性或接近线性的可扩展性，使它们在NLP、计算机视觉和边缘AI等长序列应用中成为理想之选，包括实时转录、翻译和上下文搜索。这些应用需要在资源受限的设备（如笔记本电脑和台式机）上进行轻量级、高性能的模型部署。为每种新兴神经网络设计专用加速器是成本高昂且不切实际的，相反，针对AI台式机上的现有NPUs优化模型提供了一种可扩展的解决方案。为此，我们提出了XAMBA，这是首款使SSMs能够在商用即用型（COTS）最先进的（SOTA）NPUs上运行和优化的框架。XAMBA遵循三步法：（1）在NPUs上使能SSMs，（2）优化性能以满足KPI要求，（3）牺牲一定的准确性以获得额外的性能增益。在使能SSMs在NPUs上运行之后，XAMBA通过CumBA和ReduBA缓解了关键瓶颈，用基于矩阵的计算替代了顺序的CumSum和ReduceSum操作，显著提高了执行速度和内存效率。此外，ActiBA通过使用分段线性映射近似昂贵的激活函数（例如Swish、Softplus），减少了延迟并保持了最小的准确损失，从而提升了性能。在Intel Core Ultra系列2 AI台式机上的评估显示，XAMBA相较于基准模型最多可实现2.6倍的加速。我们的实现可在https://github.com/arghadippurdue/XAMBA获取。

发布时间: 2/12/2025

查看原文

计数过程中注意力头是竞争还是合作？

作者: P\'al Zs\'amboki, \'Ad\'am Frakn\'oi, M\'at\'e Gedeon, Andr\'as Kornai, Zsolt Zombori

arXiv:2502.06923v1 类别:交叉学科摘要:我们对在基本任务计数上训练小型变压器进行了一项深入的机制可解释性分析，计数是许多算法中一个至关重要的演绎步骤。特别地，我们调查了注意力头之间的协作/竞争：我们探讨了注意力头是作为伪集成体运作，各自解决同一子任务，还是执行不同的子任务，这意味着它们只能联合解决原始任务。我们的研究结果表明，在计数任务的语义上，注意力头表现出伪集成体的行为，但为了创建符合句法的编码，它们的输出需要以非均匀的方式进行聚合。我们的源代码将在发表后提供。

发布时间: 2/12/2025

查看原文

合成音频有助于认知状态任务

作者: Adil Soubki, John Murzaku, Peter Zeng, Owen Rambow

arXiv:2502.06922v1 Announce Type: cross 摘要：NLP社区广泛地关注于仅文本的认知状态任务方法，但音频可以通过语调提供重要的缺失线索。我们提出，文本转语音模型学会跟踪认知状态的各个方面，以便生成自然的音频，而音频模型隐含识别的信号与语言模型利用的信息是正交的。我们介绍了合成音频数据微调（SAD）框架，在该框架中，我们展示了7个与认知状态建模相关的任务受益于同时使用文本和来自现成TTS系统的零样本合成音频数据的多模态训练。当我们向仅文本的数据集添加合成音频数据时，我们展示了性能改进。此外，在包含真实音频的数据集和任务上，我们的SAD框架在与仅文本和真实音频相比时，实现了竞争力的性能。

发布时间: 2/12/2025

查看原文

GraNNite：在资源受限的神经处理单元上实现图神经网络的高性能执行

作者: Arghadip Das, Shamik Kundu, Arnab Raha, Soumendu Ghosh, Deepak Mathaikutty, Vijay Raghunathan

arXiv:2502.06921v1 宣告类型: cross 摘要：图神经网络（GNNs）对于从结构化数据中学习至关重要，能够支持网络分析、推荐系统和语音分析等应用。在客户端PC和笔记本电脑等边缘设备上部署它们可以增强实时处理能力、隐私保护和减少对云的依赖。GNNs有助于大型语言模型（LLMs）的检索增强生成（RAG），并支持事件驱动的视觉任务。然而，不规则的内存访问、稀疏性和动态结构会在资源受限设备上导致高延迟和高能耗。尽管现代边缘处理器集成了CPU、GPU和NPUs，但用于数据并行任务设计的NPUs在处理不规则的GNN计算时表现不佳。我们提出了GraNNite，这是第一个针对商用现货（COTS）最先进深度神经网络（DNN）加速器优化GNN执行的硬件感知框架，通过一个结构化的三步方法：（1）使NPUs执行，（2）优化性能，（3）为了效率的提升牺牲一定的准确性。第一步使用GraphSplit进行工作负载分配和StaGr进行静态聚合，而GrAd和NodePad处理动态图。第二步通过EffOp提高对控制密集型任务的性能，并使用GraSp进行稀疏性利用。图卷积优化PreG、SymG和CacheG减少了冗余和内存传输。第三步平衡质量和效率，其中QuantGr应用INT8量化，而GrAx1、GrAx2和GrAx3加速注意机制、广播加法和SAGE-max聚合。在Intel Core Ultra AI PC上，GraNNite相对于默认的NPU映射实现了2.6到7.6倍的加速，相对于CPU和GPU实现了8.6倍的能效提升，分别在GNN模型上实现了10.8倍和6.7倍的性能提升，相比于CPU和GPU。

发布时间: 2/12/2025

查看原文

直接从BOLD-fMRI估计儿科心率变异性：基于动态连接性的机器学习方法

作者: Abdoljalil Addeh, Karen Ardila, Rebecca J Williams, G. Bruce Pike, M. Ethan MacDonald

arXiv:2502.06920v1 宣布类型: cross 摘要: 在许多儿科功能磁共振成像(fMRI)研究中，心脏信号通常缺失或质量较差。一种可以直接从fMRI数据中提取心率变异性(HRV)波形的工具，而不需要外周记录设备，将会非常有用。我们开发了一种机器学习框架来准确重建儿科应用中的HRV。该模型结合了一维卷积神经网络(1D-CNN)和门控循环单元(GRU)，分析了来自628个感兴趣区域(ROI)的BOLD信号，整合了过去和未来的数据。该模型在HRV准确性方面实现了8%的改进，这由增强的性能指标得以证明。这种方法消除了对外周光电容积描记术设备的需求，降低了成本，并简化了儿科fMRI的程序。此外，它提高了儿科fMRI研究的稳健性，这些研究对生理和发育变化比成人研究更加敏感。

发布时间: 2/12/2025

查看原文

选择再行动：空间解耦动作重复用于连续控制

作者: Buqing Nie, Yangqing Fu, Yue Gao

arXiv:2502.06919v1 交叉公告类型摘要：强化学习（RL）在各种连续控制任务中取得了显著的成功，如机器人操作和运动。不同于主流的逐个步骤决策的RL，最近的研究将动作重复引入到RL中，从而提高了动作的持久性，并增强了样本效率和性能。然而，现有的方法在重复过程中将所有动作维度视为整体处理，忽视了它们之间的差异性。这种限制导致了决策的灵活性降低，从而降低了策略的敏捷性和有效性。在本文中，我们提出了一种新颖的重复框架SDAR，该框架通过单独为每个动作维度执行闭环执行-重复选择来实现空间解耦的动作重复。SDAR实现了更灵活的重复策略，从而提高了动作持久性和多样性的良好平衡。与现有的重复框架相比，SDAR在策略性能和减少动作波动方面更具样本效率。在各种连续控制场景中进行了实验，证明了本文提出的空间解耦重复设计的有效性。

发布时间: 2/12/2025

查看原文

利用GPT-4o效率检测业务流程中的返工异常

作者: Mohammad Derakhshan, Paolo Ceravolo, Fatemeh Mohammadi

arXiv:2502.06918v1 交叉类型：公告摘要：本文研究了来自OpenAI的大型语言模型（LLM）之一GPT-4o-2024-08-06在检测业务流程异常中的有效性，重点关注再加工异常。在我们的研究中，我们开发了一个基于GPT-4o的工具，该工具能够将事件日志转换为结构化格式，并在业务事件日志中识别再加工活动。分析是在一个合成数据集上进行的，该数据集包含再加工异常但没有循环。为了评估GPT 4o-2024-08-06的异常检测能力，我们使用了三种提示技术：零射击、单射击和少射击。这些技术被测试在不同的异常分布下，即正态分布、均匀分布和指数分布，以确定每种情况下的最有效方法。结果表明，GPT-4o-2024-08-06具有很强的性能。在我们的数据集上，该模型在正态分布下使用单射击提示达到了96.14%的准确率，在均匀分布下使用少射击提示达到了97.94%的准确率，在指数分布下使用少射击提示达到了74.21%的准确率。这些结果突显了该模型作为可靠工具，用于在事件日志中检测再加工异常的潜力，并展示了异常分布和提示策略如何影响模型的性能。

发布时间: 2/12/2025

查看原文