arXiv 论文列表

作者: Abdelfateh Bekkair, Slimane Bellaouar, Slimane Oulad-Naoui

arXiv:2505.05965v1 类型: cross 摘要：在具有重叠结构的网络中发现社区仍然是一个重大挑战，尤其是在嘈杂的现实环境中，将拓扑、节点属性和先验信息整合至关重要。为了解决这个问题，我们提出了一种半监督图自编码器，该自编码器结合了图多头注意力和模ularity最大化，以稳健地检测重叠社区。该模型通过融合结构、属性和先验知识来学习语义表示，同时明确地解决了节点特征中的噪声问题。关键创新包括具有抗噪结构的模型和通过模ularity约束优化语义半监督设计，以提高社区质量。实验结果表明，该模型在重叠社区检测方面优于最先进的方法（NMI和F1分数的改进），并且对属性噪声具有出色的鲁棒性，在60%特征损坏的情况下仍能保持稳定的性能。这些结果突显了在复杂网络中准确发现社区的重要性，需要整合属性语义和结构模式。

发布时间: 5/12/2025

查看原文

Gemma2的全参数连续预训练的弹性权重 Consolidation

作者: Vytenis \v{S}liogeris, Povilas Daniu\v{s}is, Art\=uras Nakvosas

arXiv:2505.05946v1 类型: cross 摘要：本文描述了一项实验，该实验从持续学习的角度出发，对包含10%立陶宛语成分的CulturaX数据集进行Gemma2 20亿参数的大语言模型（LLM）的自回归预训练。我们对模型的所有参数应用弹性权重巩固（EWC），并研究了由Arc、Belebele、Gsm8K、Hellaswag、MMLU、TruthfulQA和Winogrande（均包括英语和立陶宛语版本）集合组成的语言理解基准测试以及困惑度基准测试。实验结果表明，EWC正则化不仅可以缓解灾难性遗忘效应，还有助于使用LLM学习新任务。

发布时间: 5/12/2025

查看原文

通过三重挤压与激励块实现三维注意力

作者: Maan Alhazmi, Abdulrahman Altahhan

arXiv:2505.05943v1 宣告类型：交叉摘要：ConvNeXt及其变体的出现再次证实了基于CNN的模型在计算机视觉任务中的概念和结构适用性，重新确立了它们在图像分类中的关键地位，特别是在面部表情识别（FER）方面。在本文中，我们提出了一组新的模型，这些模型基于这些进展，通过将 triplet 注意力与 Squeeze-and-Excitation（TripSE）机制相结合，在四种不同的变体中进行了集成。我们通过将这些变体应用于 ResNet18、DenseNet 和 ConvNext 架构来展示这些变体的有效性，以验证它们的多功能性和影响。我们的研究表明，在这些 CNN 模型中引入 TripSE 块可以提高它们的表现，特别是在 ConvNeXt 架构方面，这表明了其实用性。我们在 CIFAR100、ImageNet、FER2013 和 AffectNet 数据集上评估了所提出的机制和相关模型，其中使用 TripSE 的 ConvNext 在流行的数据集 FER2013 上达到了 78.27% 的准确率，这是该数据集的一个新成就。

发布时间: 5/12/2025

查看原文

IRNN：基于创新驱动的循环神经网络及其在时间序列数据建模与预测中的应用

作者: Yifan Zhou, Yibo Wang, Chao Shang

arXiv:2505.05916v1 类型: cross 摘要：许多现实世界的数据集是以时间序列的形式按顺序收集的，并且包含丰富的时序信息。因此，实践中一个常见的兴趣是捕捉时间序列的动力学并预测其未来演化。为此，循环神经网络（RNN）一直是一个流行且有效的选择，它允许非线性状态空间模型的表示。受RNN与卡尔曼滤波器（KF）在描述线性状态空间模型方面相似性的启发，本文提出了一种适应时间序列数据建模和预测任务的新型RNN架构——创新驱动的RNN（IRNN）。通过将卡尔曼滤波器中的“创新”概念引入RNN，过去的预测误差作为额外的输入信号被用来更新RNN的隐状态，从而提高预测性能。由于创新数据取决于网络参数，现有的RNN训练算法不能直接应用于IRNN。因此，提出了一种基于输入更新的时间反向传播（IU-BPTT）的定制训练算法，该算法交替地更新创新数据和通过梯度下降优化网络参数。在实际基准数据集上的实验表明，将创新数据融入各种形式的RNN中，使得IRNN在显著提高预测准确性的同时，训练成本并未显著增加。

发布时间: 5/12/2025

查看原文

从机械角度 examining 3D 异常检测中的缺陷来源

作者: Hanzhe Liang, Aoran Wang, Jie Zhou, Xin Jin, Can Gao, Jinbao Wang

arXiv:2505.05901v1 交叉公告类型: cross 摘要: 在本文中，我们不仅在结构层面识别异常，还从异常原因的角度出发，更好地进行异常检测。大多数异常被视为内部和外部来源不可预测的缺陷力量的结果，并寻求其相反的力量来纠正异常。我们提出了一种名为 Mechanics Complementary (MC4AD) 的框架，用于为每个点生成内部和外部矫正力。首先，我们提出了一个多样化的异常生成 (DA-Gen) 模块，以模拟各种类型的异常。然后，我们提出了一种互补表示的矫正力预测网络 (CFP-Net)，以模拟内部和外部矫正力的不同贡献。提出了一种联合损失函数，包括一种新的对称损失和总体损失，以适当限制矫正力。作为亮点，我们全面考虑了工业中的3D异常检测，提出了基于三元决策的层级质量控制策略，并贡献了一个名为 Anomaly-IntraVariance 的数据集，以评估模型。在提出的和现有五个数据集上，我们获得了最少参数和最快推理速度的九个最新性能表现者。源代码可在 https://github.com/hzzzzzhappy/MC4AD 获得。

发布时间: 5/12/2025

查看原文

利用视觉语言模型进行汽车UI的视觉定位与分析

作者: Benjamin Raphael Ernhofer, Daniil Prokhorov, Jannica Langner, Dominik Bollmann

arXiv:2505.05895v1 类别: cross 摘要: 现代汽车娱乐信息系统需要智能和适应性强的解决方案来处理频繁的用户界面（UI）更新和多样的设计变体。我们提出了一种视觉-语言框架，用于理解和交互式操作汽车娱乐信息系统，从而实现不同UI设计之间的无缝适应。为了进一步支持该领域的研究，我们发布了AutomotiveUI-Bench-4K，这是一个包含998张图像和4,208个注释的开源数据集。此外，我们还介绍了一种合成数据流水线来生成训练数据。我们使用低秩适应（LoRa）并对Molmo-7B模型进行了微调，结合了我们的流水线生成的推理、视觉定位和评估能力。微调后的评估大型动作模型（ELAM）在AutomotiveUI-Bench-4K（模型和数据集可在Hugging Face上获得）中表现出色，并展示了强大的跨域泛化能力，包括比基线模型在ScreenSpot上的性能提高了5.2%。值得注意的是，尽管我们的方法主要用于汽车娱乐信息系统领域进行训练，但在ScreenSpot上仍实现了80.4%的平均准确率，这一成绩几乎或甚至超过了专门针对桌面、移动和网页的ShowUI等模型。本研究探讨了数据收集和随后的微调如何推动汽车UI理解与交互的AI驱动进步。所应用的方法成本效益高，并且微调后的模型可以部署在消费级GPU上。

发布时间: 5/12/2025

查看原文

LightNobel：通过自适应激活量化改善蛋白质结构预测模型的序列长度限制

作者: Seunghee Han, Soongyu Choi, Joo-Young Kim

arXiv:2505.05893v1 Announce Type: cross 摘要：最近在蛋白质结构预测模型（PPMs）方面取得的进展，如AlphaFold2和ESMFold，通过在预测三维蛋白质折叠结构方面取得前所未有的准确性，彻底改变了计算生物学。然而，这些模型在处理长氨基酸序列的蛋白质（例如，序列长度 > 1,000）时面临显著的扩展性挑战。这一扩展性瓶颈主要是由于PPM中的激活量随指数增长而增加，这导致了额外维度的引入，从而导致了重大的内存和计算需求。这些限制阻碍了PPM的有效扩展以应用于实际场景，例如分析大型蛋白质或具有重要生物和药理相关性的复杂多聚体。本文中，我们提出了LightNobel，这是第一个为克服PPM序列长度扩展性限制而设计的硬件-软件协同加速器。在软件层面，我们提出了基于令牌的自适应激活量化（AAQ）技术，这种技术利用了PPM激活中的独特令牌特征（如distogram模式），以实现精细化的量化技术而不牺牲准确性。在硬件层面，LightNobel集成了多精度可重构矩阵处理单元（RMPU）和多功能向量处理单元（VVPU），以实现AAQ的高效执行。通过这些创新，LightNobel在保持微乎其微的准确性损失的情况下，相对于最新的NVIDIA A100和H100 GPU分别实现了8.44倍，8.41倍的加速和37.29倍，43.35倍的更高能效。它还减少了PPM的最大内存需求高达120.05倍，使长序列蛋白质的可扩展处理成为可能。

发布时间: 5/12/2025

查看原文

基于结构意识的多模态分子表示学习

作者: Rong Yin, Ruyue Liu, Xiaoshuai Hao, Xingrui Zhou, Yong Liu, Can Ma, Weiping Wang

arXiv:2505.05877v1 交叉类型摘要：分子表示的准确提取是药物发现过程中的关键步骤。近年来，在分子表示学习方法方面取得了显著进展，其中基于图像和2D/3D拓扑的多模态分子表示方法日益主流。然而，现有的多模态方法通常直接融合不同模态的信息，忽视了跨模态交互的潜力，未能充分捕捉分子间复杂和高级的关系以及不变特征。为了克服这些挑战，我们提出了一种结构感知的多模态自监督分子表示预训练框架（MMSA），旨在通过利用分子间的不变知识来增强分子图表示。该框架包括两个主要模块：多模态分子表示学习模块和结构感知模块。多模态分子表示学习模块协同处理同一分子的不同模态信息，以克服跨模态差异并生成统一的分子嵌入。随后，结构感知模块通过构建超图结构来建模分子间的高级联系，增强分子表示。该模块还引入了存储典型分子表示的记忆机制，并将它们与记忆库中的记忆锚点对齐，以整合不变知识，从而提高模型泛化能力。广泛的实验表明，MMSA 的有效性，它在 MoleculeNet 基准测试中实现了最先进的性能，平均 ROC-AUC 提高范围从 1.8% 到 9.6%，超过基线方法。

发布时间: 5/12/2025

查看原文

保留一致性扩散先验的面部图像压缩

作者: Yimin Zhou, Yichong Xia, Bin Chen, Baoyi An, Haoqian Wang, Zhi Wang, Yaowei Wang, Zikun Zhou

arXiv:2505.05870v1 交叉公告类型：交叉摘要：随着面部图像数据在各个领域的广泛应用，面部图像的高效存储和传输引起了广泛关注。然而，现有的学习面部图像压缩方法在低位率下往往会产生不满意的重建图像质量。简单地将基于扩散的方法应用于面部压缩任务会导致由于高频信息保存不足而在下游应用中表现不佳的重建图像。为了进一步探索面部图像压缩中的扩散先验，我们提出了面部图像压缩中的稳定扩散先验（FaSDiff）方法，该方法通过频率增强保持一致性。FaSDiff采用一个高频率敏感的压缩器嵌入端到端框架中，以捕捉细微图像细节并生成稳健的视觉提示。此外，我们引入了一个混合低频率增强模块，该模块将低频率面部语义与视觉提示分开，同时稳定调节扩散先验。所提出的模块允许FaSDiff在保持人类视觉感知的同时，最大限度地减少由于语义不一致性而导致的机器视觉性能下降。广泛的实验表明，FaSDiff在平衡人类视觉质量和机器视觉精度方面优于现有先进方法。论文被接受后将发布代码。

发布时间: 5/12/2025

查看原文

由学习数学手册中学习发现部分微分方程生成模型

作者: Hao Xu, Yuntian Chen, Rui Cao, Tianning Tang, Mengge Du, Jian Li, Adrian H. Callaghan, Dongxiao Zhang

arXiv:2505.05869v1 宣告类型: cross 摘要：基于数据的偏微分方程（PDEs）发现是一种有望揭示复杂系统背后规律的方法。然而，纯粹基于数据的技术面临着在搜索空间和优化效率之间进行权衡的难题。本研究提出了一种知识引导的方法，将数学手册中记录的现有PDEs纳入进来，以促进发现过程。这些PDEs以包含操作符和基本术语的句子结构编码，并用于训练一个生成模型，称为EqGPT，该模型能够生成自由形式的PDEs。构建了一个生成、评估、优化的循环，以自主识别最合适的PDE。实验结果表明，该框架可以以高精度和计算效率恢复多种PDE的形式，尤其是在涉及复杂的时间导数或复杂的空间项的情况下，这些情况通常是传统方法力所不及的。该方法还表现出对不规则空间域和高维设置的泛化能力。值得注意的是，基于实际实验数据，该方法成功发现了强非线性表面重力波向破碎传播的PDE，在实践中具有实际应用价值，并且有可能支持科学研究。

发布时间: 5/12/2025

查看原文