arXiv 论文列表

RIS辅助协作多点-非正交多址网络的资源分配 reinforcement learning方法

作者: Muhammad Umer, Muhammad Ahmed Mohsin, Huma Ghafoor, Syed Ali Hassan

arXiv:2504.00975v2 宣告类型: replace-cross 摘要：本论文深入探讨了无线通信的前沿领域，通过探索三项革命性技术的协同整合：STAR-RIS、CoMP和NOMA。随着对更高数据速率、更高效频谱利用率和更广泛覆盖范围的不断增长需求，特别是在6G发展演变中的背景下，本研究探讨了这些技术在未来无线网络中革命性的潜力。论文分析了通过战略性部署STAR-RIS实现的性能增益，重点关注减轻小区间干扰、增强信号强度以及延伸边缘用户的覆盖范围。研究了STAR-RIS元素的资源共享策略，优化了传输和反射功能。建立了框架来在真实信道条件下量化STAR-RIS辅助CoMP-NOMA网络的好处，导出了关键性能指标，如遍历速率和中断概率。此外，研究了结合RIS的CoMP-NOMA网络的能效设计方法，提出了新型RIS配置和优化算法以实现性能与能耗之间的平衡。此外，还探讨了在天线RIS辅助的CoMP-NOMA网络中应用深度强化学习(DRL)技术进行智能和自适应的最优化方法，旨在最大化网络总速率同时满足用户服务质量要求。通过对这些技术及其协同潜力的全面研究，本论文为无线通信的未来提供了宝贵的见解，铺平了更为高效、可靠和可持续的网络发展的道路，这些网络能够满足我们日益互联世界的需求。

发布时间: 4/22/2025

查看原文

在商用神经形态处理器上实现片上学习以实现边缘AI系统中高效处理脉冲神经网络

作者: Rachmad Vidya Wicaksana Putra, Pasindu Wickramasinghe, Muhammad Shafique

arXiv:2504.00957v2 宣布类型: 替换-交叉引用摘要：对能效边缘AI系统（例如，移动代理/机器人）的需求日益增长，增加了对类脑计算的兴趣，因为它可以通过类脑处理器上的尖峰神经网络（SNN）算法提供超低功耗/能量的AI计算。然而，对其有效的实现策略尚未进行全面研究，因此限制了SNN在边缘AI系统中的部署。为此，我们提出了一种设计方法，以在通用类脑处理器上实现高效的SNN处理。为此，我们首先研究目标类脑硬件的关键特性（例如，内存和计算预算），并利用这些信息进行网络选择的兼容性分析。之后，我们采用一种映射策略，以在目标处理器上高效实现SNN。此外，我们整合了一种高效的片上学习机制，以更新系统的知识，适应新的输入类别和动态环境。实验结果表明，所提出的方法使系统能够实现较低的推理延迟（例如，图像分类小于50毫秒，视频流中实时对象检测小于200毫秒，关键词识别小于1毫秒）和较低的片上学习延迟（例如，关键词识别小于2毫秒），同时功耗低于250毫瓦，能耗低于15毫焦尔，适用于不同的应用程序和场景。这些结果表明，所提出的方法在实现多样化的边缘AI系统应用方面具有潜力。

发布时间: 4/22/2025

查看原文

单模态、跨模态和多模态视角下的音乐生成综述

作者: Shuyu Li, Shulei Ji, Zihao Wang, Songruoyao Wu, Jiaxing Yu, Kejun Zhang

arXiv:2504.00837v2 公告类型: replace-cross 摘要：多模态音乐生成是利用文本、图像、视频以及音乐谱和音频作为引导的多个模态的生成，是一个具有广泛应用的研究领域。本文回顾了这一领域，从模态的角度对音乐生成系统进行了分类。回顾涵盖了模态表示、多模态数据对齐及其在指导音乐生成中的应用。同时，文中还讨论了当前的数据集和评估方法。该领域的关键挑战包括有效的多模态集成、大规模综合数据集和系统的评估方法。最后，本文提供了对未来研究方向的展望，重点关注创造力、效率、多模态对齐和评估。

发布时间: 4/22/2025

查看原文

洛伦兹图形同构网络

作者: Srinitish Srinivasan, Omkumar CU

arXiv:2504.00142v2 通知类型: replace-cross 摘要: 我们引入了洛伦兹图同构网络 (LGIN)，这是一种新颖的图神经网络 (GNN)，旨在在双曲空间中操作，通过利用洛伦兹模型来增强图表示学习。现有的 GNN 主要是在欧几里得空间中操作的，这可能会限制它们捕捉复杂图中固有的层次和多关系结构的能力。LGIN 通过引入曲率感知的聚合函数解决了这一问题，这些函数保留了洛伦兹度量张量，通过提出一种新更新规则，有效捕捉局部邻域交互和全局结构属性，从而使 LGIN 能够区分非同构图，其表达能力至少与 Weisfeiler-Lehman 测试相当。通过在九个基准数据集中进行广泛评估，包括分子和蛋白质结构，LGIN 一致性地优于或匹配当前最先进的 GNN，证明了其在建模复杂图结构方面的稳健性和有效性。据我们所知，这是首个将强健的图神经网络概念扩展到黎曼流形的研究，为未来的双曲图学习进步铺平了道路。我们的论文代码可以在 https://github.com/Deceptrax123/LGIN 获得。

发布时间: 4/22/2025

查看原文

ZJUKLAB 至 SemEval-2025 任务 4：通过模型合并实现遗忘

作者: Haoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang

arXiv:2503.21088v2 类型: replace-cross 摘要：本文介绍了ZJUKLAB团队参加SemEval-2025任务4（从大型语言模型中移除敏感内容）的提交。该任务旨在有选择地从大型语言模型中消除敏感知识，避免过度遗忘和不足遗忘的问题。我们提出了一种利用模型合并（具体而言是TIES-Merging）的遗忘系统，将两个专门的模型合并成一个更平衡的遗忘模型。我们的系统取得了竞争性的结果，在26个团队中排名第2，任务综合分数为0.944，总体综合分数为0.487。在本文中，我们还进行了局部实验，并对遗忘过程进行了全面分析，检查了性能轨迹、损失动态和权重视角，以及进行了几项补充实验，以了解我们方法的有效性。此外，我们分析了我们方法和评估指标的不足之处，强调仅凭MIA分数和基于ROUGE的指标无法全面评估成功的遗忘。最后，我们强调在未来的研究中需要更全面的评估方法论和重新考虑遗忘目标的重要性。代码可在https://github.com/zjunlp/unlearn/tree/main/semeval25获取。

发布时间: 4/22/2025

查看原文

重路由连接：混合计算机视觉分析揭示印度河和藏族-彝族走廊书写系统之间的视觉相似性

作者: Ooha Lakkadi Reddy

arXiv:2503.21074v3 名称类型: replace-cross 摘要：本文采用了一种混合CNN-Transformer架构，结合详细的民俗学框架，研究了印度河谷文字的视觉形态与其藏彝走廊象形系统的潜在历史联系。通过三个目标文字的15个独立训练模型的集成方法，我们证明了藏彝走廊文字在视觉相似性上大约是印度河文字的六倍（0.635），高于青铜时代楔形文字的初型（0.102）或埃lam文字（0.078）。出乎意料的是，通过直接的文字嵌入比较，当测量时，印度河文字与藏彝走廊文字的平均余弦相似性为0.930（置信区间：[0.917, 0.942]），比同时代的西 Asian 文字记录的平均相似性（0.887，置信区间：[0.863, 0.911] 和 0.855，置信区间：[0.818, 0.891]）更接近。在降维方法和聚类方法中，印度河文字始终与其他藏彝走廊文字聚类最接近。这些计算发现与在数字系统、性别标记和图像学元素中观察到的图像相似之处相一致。与印度文明衰落相符的古代蜀- shreddu 道路的考古证据提供了一个可能的传播途径。虽然仍不能排除其他解释的可能性，但这些特定性和一致性表明，南亚和东亚之间的文化传播网络比先前认识的要复杂得多。

发布时间: 4/22/2025

查看原文

流式学习：神经网络参数上的流匹配

作者: Daniel Saragih, Deyu Cao, Tejas Balaji, Ashwin Santhosh

arXiv:2503.19371v2 通告类型: replace-cross 摘要：基础语言模型在推理过程中通过上下文数据学习新概念的能力令人瞩目。然而，对于图像而言，类似的工作相对滞后。为了解决这一挑战，我们引入了FLoWN，这是一种学习生成不同任务神经网络参数的流匹配模型。我们的方法在潜空间中建模流，同时根据上下文数据对过程进行条件化。实验验证了FLoWN在元学习模型中达到了各种期望。此外，在分布内任务上，它与基线相当或超过基线，在分布外的少样本任务上表现出色，并且具有精细调节机制以提高性能。

发布时间: 4/22/2025

查看原文

Reason2Attack: 通过LLM推理突破文本到图像模型限制

作者: Chenyu Zhang, Lanjun Wang, Yiwen Ma, Wenhui Li, An-An Liu

arXiv:2503.17987v2 安全公告类型: replace-cross 摘要: 文字到图像(T2I)模型通常部署安全性过滤器，以防止生成敏感图像。不幸的是，最近的囚禁破解攻击方法通过手动设计提示使LLM生成对抗性提示，从而有效地绕过了安全性过滤器，同时生成敏感图像，暴露出T2I模型的安全漏洞。然而，由于LLM对T2I模型及其安全性过滤器的理解有限，现有方法需要大量查询才能实现成功的攻击，限制了它们的实际应用。为了解决这一问题，我们提出了一种Reason2Attack(R2A)，旨在通过将囚禁破解攻击整合到LLM的后训练过程中来增强LLM在生成对抗性提示方面的推理能力。具体来说，我们首先根据框架语义提出了一种CoT示例合成管道，通过识别相关术语及其对应的上下文插图来生成对抗性提示。使用管道生成的CoT示例，我们微调LLM以理解推理路径并格式化输出结构。之后，我们将囚禁破解攻击任务集成到LLM的强化学习过程中，并设计了一个考虑提示长度、提示隐蔽性和提示效果的攻击过程奖励，旨在进一步提高推理准确性。在各种T2I模型上的广泛实验表明，R2A在需要较少查询的情况下实现了更好的攻击成功率。此外，我们的对抗性提示在开源和商用T2I模型之间展示了强大的攻击可迁移性。

发布时间: 4/22/2025

查看原文

高效的 airspace 运营的预测服务架构

作者: \'Italo Romani de Oliveira, Samet Ayhan, Glaucia Balvedi, Michael Biglin, Pablo Costas, Euclides C. Pinto Neto, Alexandre Leite, Felipe C. F. de Azevedo

arXiv:2503.17515v2 通告类型: replace-cross 摘要：预测航空交通拥堵和流量管理对航空公司和空中导航服务提供商(ANSP)提高运营效率至关重要。准确估计未来的机场容量和空中交通密度是更好地进行空中交通管理、减少空中交通管制员工作负担和燃油消耗的关键，最终促进可持续航空。尽管现有文献已经解决了这些挑战，但由于高空速航空交通数据量庞大，数据管理与查询处理仍然复杂。许多分析用例需要一种通用的预处理基础设施，因为临时方法是不足的。此外，线性预测模型往往不够，需要更先进的技术。本文提出了一种数据处理和预测服务架构，该架构能够处理大量、相关性弱和噪声大的流数据，以预测未来空中交通系统的状态。该系统连续收集原始数据，定期将其压缩，并存储在NoSQL数据库中，以便高效查询处理。对于预测，系统通过提取关键特征（如机场到达和离场事件、扇区边界穿越、气象参数以及其他航空交通数据）来学习历史交通模式，并将这些特征输入线性、非线性以及集成等各种回归模型中，选择表现最佳的模型进行预测。我们在美国国家空中交通系统(NAS)和欧洲空中交通的一段使用广泛的实际操作数据进行了三个预测用例的评估，证实我们的系统能够高效且准确地预测未来系统状态。

发布时间: 4/22/2025

查看原文

AIJIM：环境 journalism 中的可扩展实时 AI 模型

作者: Torsten Tiltack

arXiv:2503.17401v4 通知类型: 替换-交叉摘要：环境 journalism 对提高生态危机意识和支持基于证据的政策制定至关重要，但传统方法存在延迟、可扩展性有限以及对未受监管地区覆盖不足的问题。本文介绍了人工智能 journalism 整合模型（AIJIM），这是一种概念性和可转移的理论模型，用于构建实时、AI支持的环境 journalism 工作流程。AIJIM 结合了公民提供的图像数据、自动危险检测、双层验证（视觉和文本）以及 AI 生成的报道。通过在马略卡的试点研究，AIJIM 在提高报道速度和准确性方面取得了显著进步，并通过可解释的人工 intelligence（XAI）、GDPR 合规性和社区审核保持了透明度和伦理监督。该模型展示了高度的可转移性，并为环境传播与人工智能交汇处的可扩展、负责任和参与式 journalism 设立了新的基准。

发布时间: 4/22/2025

查看原文