arXiv 论文列表

作者: Jiayu Qin, Jianchao Tan, Kefeng Zhang, Xunliang Cai, Wei Wang

arXiv:2502.14008v1 Announce Type: cross 摘要：大型语言模型（LLMs）在各种语言任务中的出色表现引起了广泛关注。然而，这些模型的日益增长的规模为部署和推理带来了越来越大的挑战。结构化剪枝，作为一种有效的模型压缩技术，因其能够提高推理效率而受到越来越多的关注。不过，大多数基于优化的结构化剪枝方法在提高灵活性以保持性能的同时，牺牲了各层之间的均匀结构。这种异构结构阻碍了现成的推理加速技术的有效利用，并阻碍了高效的配置以继续训练。为了解决这一问题，我们提出了一种基于最小最大优化的新型掩码学习范式，通过在稀疏正则化下优化掩码来获得均匀剪枝结构。大量实验结果表明，我们的方法能够在保持高性能的同时确保剪枝模型结构的均匀性，从而优于现有的SOTA方法。

发布时间: 2/21/2025

查看原文

修正后的拉格朗日乘子在现代霍普菲尔德网络中的异常分布检测

作者: Ryo Moriai, Nakamasa Inoue, Masayuki Tanaka, Rei Kawakami, Satoshi Ikehata, Ikuro Sato

arXiv:2502.14003v1 消息类型: cross 摘要：现代霍普菲尔德网络（MHNs）最近在人工智能领域引起了广泛关注，因为它们能够存储和检索大量模式，具有指数级大的存储容量。一个MHN通常是一个由记忆神经元和特征神经元的拉格朗日量定义的动力系统，其中与同分布（ID）样本相关联的记忆在特征空间中表示为吸引子。现有MHN中存在一个主要问题，即管理异分布（OOD）样本，因为最初假设所有样本都是ID样本。为了解决这一问题，我们提出了修正拉格朗日（RegLag），这是一种新的记忆神经元的拉格朗日量，它在MHN的动力系统中明确包含了OOD样本的吸引子。RecLag对于任何交互矩阵来说都会创建一个平凡的点吸引子，通过识别落入该吸引子的样本作为OOD，实现OOD检测。交互矩阵通过优化概率密度估计来识别ID和OOD。我们展示了基于RecLag的MHN与基于能量的OOD检测方法（包括最先进的霍普菲尔德能量方法）在九个图像数据集上的有效性比较。

发布时间: 2/21/2025

查看原文

基于扰动的解释医疗AI差异可微程序方法

作者: Takeshi Abe, Yoshiyuki Asai

arXiv:2502.14001v1 宣告类型: cross 摘要: 近期机器学习算法的发展达到了一个程度，使得医疗设备能够配备人工智能（AI）模型，用于临床环境中的诊断支持和常规自动化。在医学和医疗保健领域，AI模型产生的结果的充分且客观的解释性需求尤为突出。然而，由于其复杂性，AI模型通常被视为黑盒模型，导致其响应的计算过程往往是不透明的。尽管已经提出了一些方法通过评估各特征在分类和预测中的重要性来解释模型的行为，但这些方法可能会因用于训练或测试的数据集的规模和取样协议产生的偏差和不透明性而受到影响。为了克服现有方法的局限性，我们探索了一种替代方法，以提供AI模型的客观解释，这种解释独立于学习过程，并不需要额外的数据。作为这一研究方向的初步研究，本文考察了一种基于数值计算的深度学习模型雅可比矩阵的可用性，该矩阵衡量了在输入中添加小扰动时模型响应的稳定性。如果有可用的指标，则从给定的目标输入训练的AI模型中计算出该指标。这是基于扰动的解释的第一步，将有助于医疗从业者理解并解释AI模型在临床应用中的响应。

发布时间: 2/21/2025

查看原文

在有能动人工智能时代的-human-人工交互: 一种系统理论方法

作者: Uwe M. Borghoff, Paolo Bottoni, Remo Pareschi

arXiv:2502.14000v1 公告类型: cross 摘要：本文提出了对人机交互（HCI）的一种新颖视角，将其视为在网络系统中人类和计算代理之间的一种动态互动。超越了传统基于界面的方法，我们强调了不同类型代理之间的协调和沟通的重要性，这些代理有不同的能力、角色和目标。我们区分了多代理系统（MAS）和Centaurian系统，这两种系统代表了人类与人工智能协作的两种不同范式。MAS保持代理的自主性，通过结构化协议实现合作，而Centaurian系统则深入整合了人类和AI的能力，形成了统一的决策实体。为了形式化这些互动，我们引入了一种通信空间框架，该框架分为表层、观察和计算层，确保MAS和Centaurian架构之间的无缝集成，其中彩色平移网有效地表示了结构化的Centaurian系统，而高层可重构网络则体现了MAS的动态性质。我们的研究在自主机器人、人类在环决策和以AI驱动的认知架构等领域具有实际应用，并为下一代混合智能系统提供了基础，这些系统平衡了结构化协调与 emergent 行为。

发布时间: 2/21/2025

查看原文

使用深度图像先验去除不可见图像水印的一种基线方法

作者: Hengyue Liang, Taihui Li, Ju Sun

arXiv:2502.13998v1 安全公告类型: cross 摘要: 图像水印被认为是检测AI生成内容的一种有前途的技术，可以用于保护版权或防止滥用假图像。在这项工作中，我们介绍了一种针对图像水印的黑盒移除方法，无需任何带有水印图像的数据集或对水印系统的任何了解。我们的方法实施简单：给定一张水印图像，我们通过深度图像先验(DIP)对其进行回归。我们展示了从DIP的中间步骤中，可以可靠地找到能够移除不可见水印同时保持高质量图像的规避图像。由于其独特的操作机制和实际效果，我们建议将DIP作为基准入侵方法，用于评估水印系统的稳健性。最后，通过展示DIP和其他现有黑盒方法在规避基于训练的可见水印方面的有限能力，我们讨论了基于训练的可见水印在防止不实信息滥用方面的积极影响。

发布时间: 2/21/2025

查看原文

基于物理的材料的生成细节增强

作者: Saeed Hadadan, Benedikt Bitterli, Tizian Zeltner, Jan Nov\'ak, Fabrice Rousselle, Jacob Munkberg, Jon Hasselgren, Bartlomiej Wronski, Matthias Zwicker

arXiv:2502.13994v1 类别: cross 摘要: 我们提出了一种工具，使用商用扩散模型和逆渲染来增强基于物理的材料的细节。我们的目标是通过添加磨损、老化、风化等迹象来提高材料的视觉保真度，这些细节通常需要大量的手工制作。由于这些外观细节通常源于现实世界的过程，我们利用了一个大规模自然图像数据集的生成图像模型，该数据集包含了与上下文相关的视觉效果。从给定的几何形状、UV映射和基本外观开始，我们对对象进行了多次渲染。我们使用这些视图以及一个定义外观的文字提示来条件化扩散模型。然后，通过逆可微渲染，生成的细节从增强的图像反向传播到材料参数。为了使逆渲染成功，生成的外观必须在所有图像中保持一致。我们提出了两种先验来解决扩散模型的多视图一致性问题。首先，我们确保引导扩散过程的初始噪声本身在所有视图中是一致的，通过从视图无关的UV空间整合它来实现。其次，通过投影约束偏置注意力机制，使像素强烈关注其他视图中相应像素的位置，从而确保几何一致性。我们的方法不需要对扩散模型进行任何训练或微调，不依赖于使用的材料模型，而且增强的材料属性，即2D PBR纹理，可以进一步由艺术家编辑。

发布时间: 2/21/2025

查看原文

学习发现调控元件进行基因表达预测

作者: Xingyu Su, Haiyang Yu, Degui Zhi, Shuiwang Ji

arXiv:2502.13991v1 声明类型：cross 摘要：我们考虑从DNA序列预测基因表达的问题。这个任务的关键挑战在于找到控制基因表达的调控元件。在这里，我们介绍了Seq2Exp，这是一种专门设计的序列到表达网络，旨在发现和提取驱动目标基因表达的调控元件，从而提高基因表达预测的准确性。我们的方法捕获了表观遗传信号、DNA序列及其相关调控元件之间的因果关系。具体来说，我们建议将因果活跃调控元件条件下的表观遗传信号和DNA序列进行分解，并使用Beta分布的信息瓶颈结合它们的效果，同时过滤掉非因果成分。我们的实验表明，Seq2Exp在基因表达预测任务中优于现有基线，并且与通常用于峰值检测的统计方法（如MACS3）相比，发现了更具影响力的区域。该项目的源代码作为AIRS库的一部分进行了发布（https://github.com/divelab/AIRS/）。

发布时间: 2/21/2025

查看原文

面向语言障碍患者的零样本手势意识语音识别

作者: Seungbae Kim, Daeun Lee, Brielle Stark, Jinyoung Han

arXiv:2502.13983v1 交叉公告类型摘要：语言障碍个体常常由于语言处理和理解能力的限制而在沟通上面临重大挑战，这也影响了他们与主要依赖自动语音识别（ASR）的语音辅助系统的互动。尽管在语音识别方面取得了进步，改善了对非流畅性的处理，但很少关注整合非言语交流方法，如手势，这些方法对于语言障碍个体补充沟通至关重要。认识到需要解释仅靠语音无法捕捉到的视觉信息的潜在含义，我们提出了一种利用具有零样本学习的大规模多模态语言模型的手势感知ASR系统，旨在为言语障碍个体提供有效的支持。我们的实验结果和分析表明，包括手势信息显著增强了语义理解。本研究有助于开发有效的沟通技术，特别是针对语言障碍个体的独特需求而设计的。

发布时间: 2/21/2025

查看原文

利用有效的动态图学习来抵御风险传播对金融稳定性的冲击

作者: Guanyuan Yu, Qing Li, Yu Zhao, Jun Wang, YiJun Chen, Shaolei Chen

arXiv:2502.13979v1 宣告类型: cross 摘要：金融风险可以在紧密耦合的时间和空间维度之间传播，对金融稳定构成重大威胁。此外，嵌入未标记数据中的风险往往难以检测。为应对这些挑战，我们引入了GraphShield，这是一种具有三项创新的技术：增强跨域信息学习：我们提出了一种动态图学习模块，以改善时间与空间域之间的信息学习。高级风险识别：通过利用风险的聚类特征，我们构建了一个风险识别模块，以增强对隐藏威胁的识别。风险传播可视化：我们提供了一种可视化工具，用于定量和验证触发广泛级联风险的节点。在两个真实世界和两个开源数据集上的广泛实验展示了我们框架的稳健性能。我们的方法代表了利用人工智能增强金融稳定的重要进展，提供了减轻金融网络中风险传播的强大解决方案。

发布时间: 2/21/2025

查看原文

IncepFormerNet：一种用于SSVEP分类的多尺度多头注意力网络

作者: Yan Huang, Yongru Chen, Lei Cao, Yongnian Cao, Xuechun Yang, Yilin Dong, Tianyu Liu

arXiv:2502.13972v1 宣告类型: cross 摘要: 在最近几年中，深度学习(DL)模型在脑电图(EEG)分类任务中表现出色，特别是在基于稳态视觉诱发电位(SSVEP)的脑-计算机接口(BCI)系统中。深度学习方法已经在SSVEP-BCI系统中得到了成功应用。本文提出了一种新的模型IncepFormerNet，该模型结合了Inception和Transformer架构。IncepFormerNet能够通过并行使用不同大小的卷积核从时间序列数据中提取多尺度的时间信息，准确捕捉SSVEP信号中的微妙变化和关键特征。此外，该模型整合了Transformer架构中的多头注意机制，不仅提供了全局依赖性的洞察，而且还显着增强了对复杂模式的理解和表示。此外，它利用滤波器銀行技术根据SSVEP数据的频谱特征提取特征。为了验证所提出模型的有效性，我们在两个公开数据集上进行了实验。实验结果表明，IncepFormerNet在数据集1上的准确率为87.41%，在数据集2上的准确率为71.97%，使用的时间窗口为1.0秒。为了进一步验证所提出模型的优越性，我们将它与其他深度学习模型进行了比较，结果显示我们的方法的准确率显著高于其他方法。本文的工作源代码可从以下链接获得：https://github.com/CECNL/SSVEP-DAN。

发布时间: 2/21/2025

查看原文