arXiv 论文列表

视觉注意力永不衰退：选择性逐步注意力重新校准用于多模态大型语言模型中的详细图像 captioning

作者: Mingi Jung, Saehuyng Lee, Eunji Kim, Sungroh Yoon

arXiv:2502.01419v1 类型:跨领域摘要：详细的图像说明对于数据生成和辅助视障人士等任务至关重要。高质量的说明需要在精确性和召回率之间达到平衡，这对当前多模态大语言模型（MLLMs）来说仍然具有挑战性。在这项工作中，我们假设这种限制来自于随着响应长度增加，视觉注意力减弱且变得越来越嘈杂。为了应对这个问题，我们提出了一种无需训练的方法SPARC（选择性渐进注意力重新校准），该方法在解码过程中增强了视觉标记的贡献。SPARC基于三个关键观察：（1）增加所有视觉标记的影响会降低召回率；因此，SPARC选择性地放大视觉标记；（2）随着说明的增加，视觉注意力变得越来越嘈杂，因此，SPARC通过利用时间步长之间的注意力差异来识别关键的视觉标记；（3）随着视觉注意力逐渐减弱，SPARC加强它以保持其影响。我们的实验，其中包括自动化和人工评估，表明现有方法在牺牲召回率的情况下提高了MLLMs的精确性。相比之下，我们提出的方法在最小的计算开销下同时提高了精确性和召回率。

发布时间: 2/4/2025

查看原文

GRADIEND：神经网络内的单义特征学习及其在 Transformer 模型性别去偏中的应用

作者: Jonathan Drechsel, Steffen Herbold

arXiv:2502.01406v1 交叉类型：公告摘要：人工智能系统经常表现出并放大社会偏见，包括性别偏见，这在关键领域可能导致有害的后果。本研究引入了一种新颖的编码-解码方法，该方法利用模型梯度来学习一个单一的多义性特征神经元，编码性别信息。我们展示了我们的方法可以用于减轻基于变换器的语言模型的偏见，同时保持其他功能。我们展示了我们的方法在多个基于编码器的模型中的有效性，并强调其在更广泛的应用中的潜力。

发布时间: 2/4/2025

查看原文

AdaSVD：自适应奇异值分解在大型语言模型中的应用

作者: Li Zhiteng, Xia Mingyuan, Zhang Jingyuan, Hui Zheng, Kong Linghe, Zhang Yulun, Yang Xiaokang

arXiv:2502.01403v1 宣告类型: cross 摘要: 大型语言模型（LLMs）在自然语言处理（NLP）任务中取得了显著的成功，但它们庞大的内存需求给在资源受限的设备上部署带来了显著的挑战。奇异值分解（SVD）作为一种有潜力的压缩技术，为LLMs提供了显著的内存减少。然而，现有的基于SVD的方法通常难以有效解决SVD截断引入的误差，导致与原始模型相比存在明显的性能差距。此外，对所有变压器层采用统一的压缩比不能考虑各层的差异重要性。为了解决这些挑战，我们提出了一种适应性的SVD基大型语言模型压缩方法——AdaSVD。具体来说，AdaSVD引入了adaComp，通过交替更新奇异矩阵U和V^T来适应性地补偿SVD截断误差。此外，AdaSVD引入了adaCR，根据各层的相对重要性适应性地分配层特定的压缩比。在多个LLM家族和评价指标上的广泛实验表明，AdaSVD始终优于最新的基于SVD的方法，实现了显著降低内存需求的同时保持了更好的性能。相关代码和模型将在 https://github.com/ZHITENGLI/AdaSVD 提供。

发布时间: 2/4/2025

查看原文

基于消息传递的GNN能近似稀疏矩阵的三角分解吗？

作者: Vladislav Trifonov, Ekaterina Muravleva, Ivan Oseledets

arXiv:2502.01397v1 宣布类型: cross 摘要: 我们研究了图神经网络（GNNs）在学习稀疏矩阵预条件器方面的基本局限性。尽管最近的研究显示出使用GNNs预测不完全因子化的有希望的结果，但我们证明了消息传递的局部性质为捕捉最优预条件化所需的非局部依赖性造成了内在障碍。我们引入了一个新的基准数据集，其中包含存在但需要非局部计算的优质稀疏预条件器，该数据集使用合成示例和真实世界矩阵构建而成。我们的实验结果表明，当前的GNN架构难以逼近这些预条件器，这暗示了需要超越传统消息传递网络的新架构方法。我们提供了理论分析和实验证据来解释这些局限性，并对GNNs在数值线性代数中的更广泛使用具有指导意义。

发布时间: 2/4/2025

查看原文

从实时观测中学习交通异常的生成模型

作者: Fotis I. Giasemis, Alexandros Sopasakis

arXiv:2502.01391v1 宣告类型：交叉摘要：准确检测交通异常对于有效的城市交通管理和缓解交通拥堵至关重要。我们使用结合图神经网络和长短期记忆网络的时空生成对抗网络（STGAN）框架，来捕获交通数据中的复杂空间和时间依赖关系。我们将STGAN应用于2020年几个月份中瑞典哥德堡42个交通摄像头的实时、每分钟的观测数据。图像被处理以计算一个表示车辆密度的流量指标，作为模型的输入。训练是在2020年4月至11月的数据上进行的，验证则在2020年11月14日至23日的另一组数据集上进行。我们的结果显示，该模型能够以高精度和低假阳性率有效检测交通异常。检测到的异常包括摄像头信号中断、视觉伪影以及严重影响交通流量的极端天气条件。

发布时间: 2/4/2025

查看原文

使用策略梯度方法微调离散扩散模型

作者: Oussama Zekri, Nicolas Boull\'e

arXiv:2502.01384v1 宣告类型: cross 摘要：离散扩散模型由于其处理语言建模中的复杂离散结构的能力，最近获得了广泛关注。然而，使用策略梯度方法对这些模型进行微调，如在人类反馈强化学习（RLHF）中常见的做法，仍然是一个具有挑战性的任务。我们提出了一种高效的、广泛适用的并且具有理论依据的策略梯度算法，称为分数熵策略优化（SEPO），用于在非可微奖励上微调离散扩散模型。我们针对多个离散生成任务的数值实验表明了我们方法的可扩展性和效率。我们的代码可在 https://github.com/ozekri/SEPO 获取。

发布时间: 2/4/2025

查看原文

基于神经数据的心理韧性预测高效模型

作者: Zhi Zhang, Yan Liu, Mengxia Gao, Yu Yang, Jiannong Cao, Wai Kai Hou, Shirley Li, Sonata Yau, Yun Kwok Wing, Tatia M. C. Lee

arXiv:2502.01377v1 Announce Type: 交叉摘要：心理韧性被定义为从逆境中恢复的能力，是心理健康的关键。与传统的自报问卷评估韧性相比，基于神经数据的评估能够提供更客观的结果，且带有生物标志物，因此显著提高了可信度。本文提出了一种新颖的数据高效模型，以应对神经数据稀缺的问题。我们采用了神经柯尔莫哥洛夫-阿诺尔德网络作为预测模型的结构。在训练阶段，提出了一种新的基于特质的信息多模态表示算法和一种智能块技术，以在有限的数据下学习共享的潜在空间。在测试阶段，提出了一种新的基于噪声的推理算法，以应对神经数据的低信噪比问题。所提出模型不仅在公共数据集和自构建数据集上表现出色，还为未来的研究提供了一些有价值的心理学假设。

发布时间: 2/4/2025

查看原文

通过梯度下降实现紧凑基于规则的分类器学习

作者: Javier Fumanal-Idocin, Raquel Fernandez-Peralta, Javier Andreu-Perez

arXiv:2502.01375v1 宣告类型: cross 摘要: 规则基础模型在需要透明性和可问责决策的场景中发挥着重要作用。然而，这些模型主要由离散参数和结构组成，这为扩展性和优化带来了挑战。在这项工作中，我们引入了一种使用梯度下降训练的新规则基础分类器，用户可以控制规则的最大数量和长度。对于数值分区，用户也可以控制使用模糊集的分区，这有助于保持分区数量较小。我们在40个数据集上进行了一系列详尽的实验，以展示此分类器在准确性和规则库大小方面的性能。然后，我们将我们的结果与一个适合等效分类器的遗传搜索进行了比较，以及其他可解释和不可解释的最新分类器。我们的结果展示了我们的方法如何能够获得紧凑的规则库，使用比其他基于规则的方法显著更少的模式，并且性能优于其他可解释的分类器。

发布时间: 2/4/2025

查看原文

Meadows作为数据点

作者: Abhinav Pratap, Amit Pathak

arXiv:2502.01364v1 Announce Type: cross 摘要：在数据化的时代，将人类体验简化为可量化的指标引发了深刻的哲学和伦理问题。本文通过阿尔贝·加缪的《局外人》中的主角默尔索的情感疏离存在，探讨了这些问题。默尔索的存在体现了存在主义概念中的荒诞。本文利用自然语言处理（NLP）技术，包括情感检测（BERT）、情感分析（VADER）和命名实体识别（spaCy），对默尔索生活中的关键事件和行为进行了量化分析。我们的分析揭示了算法模型应用于复杂人类体验的固有限制，特别是那些根植于存在主义孤立和道德模糊性的体验。通过研究现代AI工具如何误读默尔索的行为和情感，这项研究强调了减少细腻的人类叙事为数据点所引发的更广泛的伦理困境，挑战了我们数据驱动社会的基本假设。本文的研究结果是对日益依赖数据驱动叙事的批判，并倡导在人工智能中融入人文价值观。

发布时间: 2/4/2025

查看原文

区间掉线激活：一种简单的防止神经网络丧失塑性的方法

作者: Sangyeon Park, Isaac Han, Seungwon Oh, Kyung-Joong Kim

arXiv:2502.01342v1 类型: cross 摘要: 神经网络训练中的可塑性损失是模型适应新任务或数据分布变化能力受限的关键挑战。本文介绍了一种名为 AID（基于区间Dropout的激活）的新方法，该方法受Dropout启发，旨在解决可塑性损失问题。与Dropout不同，AID 通过在每个预激活区间上应用不同概率的Dropout 来生成子网络。理论分析表明，AID 正则化了网络，促进了类似于深层线性网络的行为，而深层线性网络不受可塑性损失的影响。我们通过在包括标准图像分类数据集CIFAR10、CIFAR100和TinyImageNet上的连续学习任务中验证了AID 在保持可塑性方面的有效性。此外，我们展示了AID 在Arcade Learning Environment基准测试中的强化学习性能得到了提升。

发布时间: 2/4/2025

查看原文