arXiv 论文列表

作者: Zhiyuan Ning, Pengfei Wang, Ziyue Qiao, Pengyang Wang, Yuanchun Zhou

arXiv:2505.05533v1 交叉声明类型摘要：图对比学习（GCL）通过保留增强视图之间的绝对相似性，遵循计算机视觉范式取得了显著的成果。然而，这种方法在图中面临着根本性的挑战，因为图具有离散的、非欧几里得的性质——视图生成经常破坏语义的有效性和可靠性使得相似性验证不可靠。通过对11个真实世界的图进行分析，我们发现超越同质性-异质性二分法的普遍模式：标签一致性系统地随着结构距离增加而减弱，表现为同质性图中的平滑衰减和异质性图中的震荡衰减。我们通过随机游走理论建立了这种模式的理论保证，证明了标签分布收敛，并且描述了不同衰减行为背后的机制。这一发现揭示了图自然编码相对相似模式的事实，其中结构上更接近的节点表现出更强的语义关系。利用这一洞察，我们提出了RELGCL，一种具有互补成对和列表实现的新GCL框架，通过集体相似性目标保留这些固有的模式。广泛的实验表明，我们的方法在同质性和异质性图中均优于20种现有方法，验证了利用自然相对相似性而不是人工绝对相似性的重要性。

发布时间: 5/12/2025

查看原文

低比特模型量化用于深度神经网络：一篇综述

作者: Kai Liu, Qian Zheng, Kaiwen Tao, Zhiteng Li, Haotong Qin, Wenbo Li, Yong Guo, Xianglong Liu, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang

arXiv:2505.05530v1 声明类型: cross 摘要：随着前所未有的迅猛发展，深度神经网络（DNNs）已经深刻地影响到了几乎所有的领域。然而，它们大量的计算成本和模型大小通常在实际部署中是无法接受的。模型量化，一种有效的权重精简技术，已经成为整个部署管道中不可或缺的步骤。量化加速的本质是从连续的浮点数转换为离散的整数，这显著加快了内存I/O和计算，即加法和乘法。然而，由于精度的损失，转换也会带来性能下降。因此，如何进行转换以及如何弥补信息损失，已经成为越来越受欢迎和关键的研究方向。本文回顾了过去五年DNNs低比特量化的发展进程。我们讨论并比较了最先进的量化方法，并根据其核心技术将其分类为8个主要类别和24个子类别。此外，我们阐述了模型量化领域潜在的研究机会。在https://github.com/Kai-Liu001/Awesome-Model-Quantization中提供了一个模型量化分类清单。

发布时间: 5/12/2025

查看原文

X-Transfer攻击：Towards超级转移可Transfer的 adversarial攻击在CLIP上

作者: Hanxun Huang, Sarah Erfani, Yige Li, Xingjun Ma, James Bailey

arXiv:2505.05528v1 攻击类型: 跨域摘要：随着对比语言-图像预训练（CLIP）模型被越来越多地应用于各种下游任务，并融入大型视觉-语言模型（VLMs），它们对对抗性扰动的敏感性已成为一个关键的担忧。在这项工作中，我们介绍了一种新颖的攻击方法 \textbf{X-Transfer}，该方法揭示了CLIP中的普遍对抗性漏洞。X-Transfer生成了一个通用的对抗性扰动（UAP），这种扰动能够欺骗来自不同样本、不同任务和不同领域的各种CLIP编码器和下游VLMs。我们将这种性质称为 \textbf{超转移能力}——单一扰动同时实现跨数据、跨领域、跨模型和跨任务的对抗性转移。这通过我们方法的关键创新之一——\textbf{替代放大}——来实现。不同于现有方法依赖于固定的替代模型，这些模型在放大时计算强度大，X-Transfer采用了一种高效的替代放大策略，从大型搜索空间中动态选择合适的小子集。广泛的评估表明，X-Transfer显著优于之前最先进的UAP方法，建立了CLIP模型间对抗性转移的新基准。代码已在我们的 \href{https://github.com/HanxunH/XTransferBench}{GitHub仓库} 公开。

发布时间: 5/12/2025

查看原文

基于ADMM的脉冲神经网络训练方法

作者: Giovanni Perin, Cesare Bidini, Riccardo Mazzieri, Michele Rossi

arXiv:2505.05527v1 公告类型: cross 摘要: 近年来，由于其在时间序列处理方面具有高潜力且能耗低，脉冲神经网络（SNNs）逐渐引起了广泛关注。然而，它们仍然缺乏一种专门且高效的训练算法。流行的基于随机梯度下降（SGD）导出算法改编的替代梯度回传（backpropagation with surrogate gradients）在作为SNNs的优化器时存在若干缺点。特别是，它在可扩展性和数值精度方面存在问题。在本文中，我们提出了基于交替方向乘子法（ADMM）的SNN训练新方法。我们的ADMM基训练方法旨在解决SNN步函数非可微的问题。我们对该问题进行建模，推导出闭式更新公式，并通过仿真概念验证实验展示了该优化器的收敛性、巨大的潜力以及可能的研究方向，以改善该方法。

发布时间: 5/12/2025

查看原文

GenAI在创业中的应用：生成人工智能在创业研究中的系统回顾：当前问题与未来方向

作者: Anna Kusetogullari, Huseyin Kusetogullari, Martin Andersson, Tony Gorschek

arXiv:2505.05523v1 类型:交叉摘要：生成性人工智能（GenAI）和大规模语言模型（LLMs）被认为对产业和商业动态产生了重大影响，尤其是在它们如何影响创业的前提条件方面。目前，关于GenAI作为创业研究主题的知识仍然不足。本文旨在通过系统文献综述来识别和分析GenAI对创业影响的研究演进格局。我们分析了83篇发表在学术数据库Web of Science和Scopus上的同行评审文章。使用自然语言处理和无监督机器学习技术（包括TF-IDF向量化、主成分分析（PCA）和层次聚类），我们识别出了五大主题集群：（1）数字化转型和行为模型，（2）GenAI增强的教育和学习系统，（3）可持续创新和战略AI影响，（4）商业模式和市场趋势，以及（5）创业中的数据驱动技术趋势。基于综述，我们讨论了未来研究方向、现有文献中的空白，以及文献中提出的相关伦理问题。我们强调了需要更多宏观层面的研究，研究GenAI和LLMs作为创业的外部促动器的作用，以及有效监管框架的研究，这些框架能够促进业务实验、创新和技术进一步发展。

发布时间: 5/12/2025

查看原文

continuous thought machines

作者: Luke Darlow, Ciaran Regan, Sebastian Risi, Jeffrey Seely, Llion Jones

arXiv:2505.05522v1 交叉公告类型：cross 摘要：生物大脑展示了复杂的神经活动，在这种活动中，神经元之间的时序以及相互作用对大脑处理信息至关重要。大多数深度学习架构通过抽象掉时序动态简化了神经活动。本文挑战了这一范式。通过引入神经元级的处理和同步，可以有效地重新引入神经时序作为基础元素。我们提出了连续思考机器（Continuous Thought Machine, CTM），这是一种以神经动力学为核心表示的模型。CTM 的两大创新是：（1）神经元级的时序处理，其中每个神经元使用独特的权重参数处理接收到的历史信号；以及（2）利用神经同步作为潜在表示。CTM 力求在简化神经元抽象（以提高计算效率）和生物学现实性之间取得平衡。它在能够捕捉到关键时序动态的同时，具备足够的计算可行性，适用于深度学习。我们展示了CTM在一系列具有挑战性的任务中表现出色并具备高度灵活性，包括ImageNet-1K分类、解决二维迷宫、排序、奇偶校验计算、问答以及强化学习任务。除了展示丰富的内部表示和由于其内部过程而自然地提供解释的途径外，CTM 还能够执行需要复杂序列推理的任务。CTM 还能够利用适应性计算，对于简单的任务它可以在早期停止计算，而对于更具有挑战性的实例，则继续计算。本研究的目标是分享CTM及其相关创新，而不是追求新的最先进的结果。为此，我们认为CTM代表了一个重要的步骤，朝着开发更接近生物学合理并强大的人工智能系统迈进。

发布时间: 5/12/2025

查看原文

GaMNet：一种结合Gabor融合和NMamba的高效脑胶质瘤三维分割网络

作者: Chengwei Ye, Huanzhen Zhang, Yufei Lin, Kangsheng Wang, Linuo Xu, Shuyan Liu

arXiv:2505.05520v1 交叉类型: cross 摘要: 胶质瘤是一种具有严重健康风险的侵袭性脑肿瘤。深度学习在病变分割中发挥作用，但基于CNN和Transformer的模型往往缺乏上下文建模，或者需要大量的计算，从而限制了在移动医疗设备上的实时使用。我们提出了GaMNet，该方法结合了NMamba模块进行全局建模和多尺度CNN进行高效的局部特征提取。为了提高可解释性和模拟人类视觉系统，我们在多个尺度上应用了Gabor滤波器。我们的方法在较少的参数下实现了高分割准确性，并且计算速度更快。广泛的实验显示，GaMNet在现有方法中表现出色，显著减少了假阳性率和假阴性率，从而提高了临床诊断的可靠性。

发布时间: 5/12/2025

查看原文

AI驱动的虚拟眼睛：视角、挑战与机遇

作者: Yue Wu, Yibo Guo, Yulong Yan, Jiancheng Yang, Xin Zhou, Ching-Yu Cheng, Danli Shi, Mingguang He

arXiv:2505.05516v1 Announce Type: cross 摘要：我们设想“虚拟眼”是一种下一代、以AI为动力的平台，利用相互连接的基础模型来模拟眼睛复杂结构和生物功能在所有尺度上的表现。AI、成像和多组学技术的发展为构建高度真实的数字人类眼睛图示奠定了肥沃的土壤。本文从早期的机械和基于规则的模型演进到现代由AI驱动的方法，概述了这一统一的多模态、多尺度、动态预测模型，其中嵌入了反馈机制。我们提出了一种开发路线图，强调大规模多模态数据集、生成性AI、基础模型、基于代理的架构和交互式界面的作用。尽管在可解释性、伦理、数据处理和评估方面存在挑战，但虚拟眼有潜力革新个性化眼科护理，并加速眼健康和疾病的科研进程。

发布时间: 5/12/2025

查看原文

Preliminary 探索与 GPT-4o(mni) 原生图像生成

作者: Pu Cao, Feng Zhou, Junyi Ji, Qingye Kong, Zhixiang Lv, Mingjian Zhang, Xuekun Zhao, Siqi Wu, Yinghui Lin, Qing Song, Lu Yang

arXiv:2505.05501v1 交叉类型: cross 摘要：最近，OpenAI解锁了GPT-4o(mni)的视觉生成能力。它展示了非常出色且多模态条件理解能力及多样的任务指令。在这篇论文中，我们旨在探讨GPT-4o在各种任务中的能力。受到之前研究的启发，我们构建了一个任务分类体系，并精心准备了一组测试样本，进行全面的定性测试。得益于GPT-4o强大的多模态理解能力，其图像生成过程展示出了超越传统图像生成任务的能力。因此，从模型能力的维度出发，我们对其在六个任务类别中的表现进行了评估：传统图像生成任务、判别任务、基于知识的生成、基于常识的生成、空间意识图像生成，以及时间感知图像生成。这些任务不仅评估了模型输出的质量和条件对齐情况，还更深入地探索了GPT-4o对真实世界概念的理解。我们的结果表明，GPT-4o在通用合成任务中表现出色，显示了其在文本到图像生成、视觉风格化和低级图像处理方面的强大能力。然而，在进行精细的空间推理、指令驱动的生成以及一致的时间预测方面，其仍然存在显著的限制。此外，在面对知识密集型或领域特定的情景，如科学插图或数学图表时，模型往往会出现幻觉、事实错误或结构不一致的现象。这些发现表明，尽管GPT-4o在统一多模态生成方面取得了重大进步，但在可靠应用于专业或安全关键领域之前，仍有许多路要走。

发布时间: 5/12/2025

查看原文

人工智能在微电网能量管理系统中的前景与挑战综述

作者: Noor ul Misbah Khanum, Hayssam Dahrouj, Ramesh C. Bansal, Hissam Mouayad Tawfik

arXiv:2505.05498v1 类别: 综述摘要：微电网已经成为了实现可持续和能效化未来的关键解决方案。尽管微电网提供了众多优势，但也容易受到可靠预测可再生能源需求和生产、抵御网络攻击、控制运营成本、优化电力流动以及调节能源管理系统(EMS)性能等问题的影响。解决这些能源管理挑战对于促进微电网的应用并顺利整合可再生能源资源至关重要。人工智能（AI）最近在优化微电网中的能源管理方面展现了巨大的潜力，提供了高效可靠的解决方案。本文通过探讨基于AI的EMS在实现特定技术和经济目标方面的适用性和效率，突显了在微电网的能源管理系统中启用基于AI的方法所带来的综合收益。此外，本文还指出了几个未来的研究方向，这些方向有望引领基于AI的EMS的发展，包括自愈微电网的开发、与区块链技术的整合、利用物联网(IoT)、以及在基于AI的EMS背景下解决可解释性、数据隐私、可扩展性和生成型AI等问题。

发布时间: 5/12/2025

查看原文