arXiv 论文列表

作者: Erik L. Connerty, Ethan N. Evans, Gerasimos Angelatos, Vignesh Narayanan

arXiv:2505.06799v1 交叉类型摘要：近期的人工智能进展凸显了神经网络（NN）驱动的经典计算机系统的强大功能。然而，这些系统面临显著的计算挑战，限制了它们的可扩展性和效率。量子计算机有潜力克服这些限制，将处理能力提升到超越经典系统的新高度。尽管如此，将量子计算与神经网络集成仍因当前量子硬件中的噪声、退相和高错误率而进展缓慢。在这里，我们提出了一种新型量子回声状态网络（QESN）设计和实现算法，该算法可以在当前IBM硬件存在噪声的情况下运行。我们应用经典的控制理论响应分析来表征QESN，强调其丰富的非线性动力学和记忆性，以及通过稀疏性和重上传模块进行精细调谐的能力。我们通过在高保真模拟和硬件实验中使用典型的混沌洛伦兹系统数据，全面展示了QESN作为量子观测器的功能，从而验证了我们的方法。我们的结果表明，QESN可以预测长时间序列，具有持久的记忆性，并在运行时间上比IBM Marrakesh QPU的中位T1和T2值长出100多倍，从而在超导硬件上实现了最先进的时间序列性能。

发布时间: 5/13/2025

查看原文

解码未来价格动态：正则化稀疏自编码器在可解释多 horizon 预测和因子发现中的应用

作者: Abhijit Gupta

arXiv:2505.06795v1 Announce Type: 综合 abstract: 商品价格波动给经济带来了挑战，需要准确的多维度预测。对于铜和原油等商品的价格预测，由于涉及多种复杂的相互作用因素（宏观经济、供需关系、地缘政治等），因此变得复杂。当前的模型往往缺乏透明性，限制了战略上的应用。本文提出了一种正则化稀疏自动编码器（RSAE），这是一种用于同时进行多维度商品价格预测和发现解释性强的隐含市场驱动因素的深度学习框架。RSAE 使用多变量时间序列来预测多个维度的价格（例如，1 天、1 周、1 个月）。关键的是，通过对其隐含向量 \(\mathbf{z}\) 应用 L1 正则化 (\(\|\mathbf{z}\|_1\))，可以促进稀疏性，通过学习代表潜在驱动因素（如需求、供应冲击等）的因子来简洁地解释市场动态。借鉴能量模型和稀疏编码，RSAE 在提高预测准确性的同时学习稀疏表示。在历史铜和原油数据以及多种指标的评估中，我们的研究结果表明，RSAE 提供了具有竞争力的多维度预测准确性和通过其可解释的隐含空间获得的数据驱动的洞察力，这使其在传统的黑箱方法上具有关键优势。

发布时间: 5/13/2025

查看原文

视觉转换器中注意力引导稀疏表示的符号规则提取

作者: Parth Padalkar, Gopal Gupta

arXiv:2505.06745v1 交叉类型：cross 摘要：最近的神经符号方法成功地从基于CNN的模型中提取出符号规则集，以提高可解释性。然而，由于Vision Transformers (ViTs)缺乏模块化概念检测器并依赖于全局自注意力机制，将类似的技术应用于ViTs仍然具有挑战性。我们提出了一种从ViTs中提取符号规则的方法，通过引入受稀疏自编码器(SAEs)启发的稀疏概念层。这个线性层在注意力加权的补丁表示上操作，并学习一种解耦的二元表示，在这种表示中，个体神经元激活与高级视觉概念相关。为了促进可解释性，我们应用了L1稀疏性约束、熵最小化和监督对比损失的组合。这些二元概念激活被用作FOLD-SE-M算法的输入，该算法以逻辑程序的形式生成规则集。我们的方法在标准ViT上实现了5.14%更高的分类准确性，同时支持符号推理。重要的是，提取出的规则集不仅是事后解释的，而是作为基于逻辑的决策层直接作用于稀疏概念表示。生成的程序简洁且语义明确。这是首次使用稀疏符号表示从ViTs中提取可执行逻辑程序的工作。它填补了基于变换器的视觉模型和符号逻辑编程之间的空白，为更具可解释性和验证性的神经符号AI提供了一步进展。

发布时间: 5/13/2025

查看原文

可信轨迹预测集成先验知识以实现可解释性和动态可行性

作者: Marius Baden, Ahmed Abouelazm, Christian Hubschneider, Yin Wu, Daniel Slieter, J. Marius Z\"ollner

arXiv:2505.06743v1 交叉论文类型摘要：轨迹预测对于自动驾驶至关重要，它可以使车辆通过预测周围道路使用者的运动来安全导航。然而，当前的深度学习模型往往缺乏可信度，因为它们的预测在物理上可能是不可行的且不符合人类逻辑。为了使预测更加可信，最近的研究引入了先验知识，例如使用社会力模型来建模交互，使用运动模型来增加物理现实性。然而，这些方法专注于适应车辆或行人的先验知识，但不能推广到混合代理类别的交通场景。我们提出了结合所有代理类别的交互和运动先验知识——车辆、行人和骑行者，并使用类别特定的交互层来捕捉代理行为差异。为了改进代理交互的可解释性，我们引入了DG-SFM，这是一种基于规则的交互重要性评分，它指导交互层。为了确保预测的物理可行性，我们为所有代理类别提出了适合的运动模型，并引入了一种新颖的行人运动模型。我们使用最先进的Transformer HPTR作为基准，在Argoverse 2数据集上对该方法进行了基准测试。实验表明，我们的方法提高了交互的可解释性，揭示了预测错误与偏离我们交互先验之间的相关性。尽管结合运动模型会导致准确性略有下降，它们却消除了数据集和基线模型中发现的不可行轨迹。因此，我们的方法增强了轨迹预测的信任度，因为它在交互推理方面的可解释性并且其预测符合物理规律。

发布时间: 5/13/2025

查看原文

基于边界的轨迹预测以实现道路感知和物理可行的自主驾驶

作者: Ahmed Abouelazm, Mianzhi Liu, Christian Hubschneider, Yin Wu, Daniel Slieter, J. Marius Z\"ollner

arXiv:2505.06740v1 宣告类型：交叉摘要：准确预测周围道路使用者的轨迹对于安全高效的自动驾驶至关重要。尽管深度学习模型在性能上有所提高，但仍存在防止偏离道路的预测和确保运动学可行性的挑战。现有方法结合了道路感知模块并施加了运动学约束，但缺乏可信度保证，往往在复杂性和灵活性之间引入折衷。本文提出了一种新的框架，将轨迹预测形式化为由可行驶方向及其边界引导的受限回归问题。利用代理当前状态和高精度地图，我们的方法定义了有效的边界，并通过训练网络学习左边界和右边界多边形之间的叠加路径来确保道路内预测。为了保证可行性，该模型预测加速度曲线，确定车辆沿这些路径行驶的距离，同时遵循运动学约束。我们使用Argoverse-2数据集将我们的方法与HPTR基线进行评估。与HPTR相比，我们的方法在基准指标上略有下降，但在最终位移误差上显著改进，并消除了不可行的轨迹。此外，提出的框架在不常见操作和未见过的分布外场景中具有优越的泛化能力，在对抗攻击下的偏离道路率从66%降低到仅1%。这些结果突显了我们在生成可行且健壮预测方面的有效性。

发布时间: 5/13/2025

查看原文

平衡进展与安全：自主驾驶中基于风险感知的新颖目标函数

作者: Ahmed Abouelazm, Jonas Michel, Helen Gremmelmaier, Tim Joseph, Philip Sch\"orner, J. Marius Z\"ollner

arXiv:2505.06737v1 交叉公告类型摘要：强化学习（RL）因其稳健的决策能力而被认为是实现自主驾驶的有前景的方法。RL 通过在交通场景中通过试错学习驾驶策略，以结合驾驶目标的奖励函数为引导。设计这样的奖励函数受到了不足的重视，导致设定了不明确的奖励且存在各种陷阱。特别是，安全长期仅被视为碰撞的惩罚。这使得与碰撞相关的各种行动的风险未被解决，限制了 RL 在现实场景中的适用性。为了解决这些问题，我们的工作集中在通过定义一系列驾驶目标并按层次结构进行结构化来增强奖励公式。此外，我们讨论了这些目标的标准化表示，以便透明地确定它们对总奖励的贡献。另外，我们引入了一种基于二维椭圆函数和Responsibility-Sensitive Safety（RSS）概念扩展的新型风险管理目标，用于各种驾驶交互。我们在不同交通密度的无信号交叉口场景中评估了我们提出的奖励的有效性。该方法平均将碰撞率降低了21%，并且在路线进展和累计奖励方面始终优于基本奖励，证明了其促进更安全驾驶行为的能力，同时保持了高性能水平。

发布时间: 5/13/2025

查看原文

深度可解释人工神经网络

作者: David Zucker

arXiv:2505.06731v1 说明类型：交叉摘要：虽然深度学习模型在众多领域取得了显著的成功，但其黑盒性质仍然是一个重要的限制，特别是在医疗图像分析和推理等关键领域。现有的可解释性方法，如SHAP、LIME和Grad-CAM，通常是在事后的应用中，增加了计算负担，并且有时会产生不一致或含糊的结果。在这篇论文中，我们提出了深度可解释人工神经网络（DxANN），这是一种新颖的深度学习架构，它在训练过程中预先嵌入了可解释性。与需要外部解释方法的传统模型不同，DxANN 设计为在前向传递过程中生成每个样本、每个特征的解释。基于流式框架构建，它能够在保持准确预测的同时实现透明的决策，并特别适用于基于图像的任务。虽然我们的重点是医疗成像，但DxANN架构很容易适应其他数据类型，包括表格和序列数据。DxANN标志着朝着内在可解释的深度学习迈进了一步，为那些对信任和问责制要求较高的应用提供了实用的解决方案。

发布时间: 5/13/2025

查看原文

基于检测变压器和零样本神经架构搜索的声纳图像水下目标检测

作者: XiaoTong Gu, Shengyu Tang, Yiming Cao, Changdong Yu

arXiv:2505.06694v1 分类: cross 摘要：声纳图像下的水下物体检测已成为海洋技术领域中一个关键且迅速发展的研究领域。然而，声纳图像的特点是分辨率较低、特征稀疏，与光学图像相比，这严重影响了物体检测的性能。为应对这些挑战，我们特别提出了一种名为NAS-DETR的检测变换器（DETR）架构，该架构结合了神经架构搜索（NAS）方法来优化声纳图像中的物体检测。首先，基于最大熵原则提出了一种改进的零样本神经架构搜索（NAS）方法，以确定适用于声纳图像检测的实时高性能CNN-Transformer主干。该方法使高效发现高性能网络架构成为可能，同时具有较低的计算和时间开销。随后，将主干与特征金字塔网络（FPN）和基于可变形注意力的Transformer解码器结合，构建了一个完整的网络架构。该架构结合了各种先进的组件和训练方案，以增强整体性能。广泛的实验表明，该架构在两个代表性数据集上实现了最先进的性能，同时保持了实时效率和计算复杂度的最小开销。此外，进行了关键参数与以差异熵为基础的适应函数之间的相关性分析，以提高所提框架的可解释性。据我们所知，这是第一个将DETR架构与NAS搜索机制结合在水下物体检测领域的研究工作。

发布时间: 5/13/2025

查看原文

FNBench: 抗噪标签下 federated learning 的基准测试

作者: Xuefeng Jiang, Jia Li, Nannan Wu, Zhiyuan Wu, Xujing Li, Sheng Sun, Gang Xu, Yuwei Wang, Qi Li, Min Liu

arXiv:2505.06684v1 描述标签噪声下的鲁棒性摘要：在联邦学习（FL）中，数据内的标签噪声鲁棒性是一个重大挑战。从数据为中心的角度来看，由于不同客户端的标注包含不同程度的复杂标签噪声，因此无法保证分布式数据集的质量，这导致了性能的下降。已经有一些早期尝试来解决联邦学习中的标签噪声问题。然而，在统一的设置下全面评估这些方法的实际性能的研究仍然不足。为了解决这一问题，我们提出了第一个基准研究FNBench，提供了一个考虑三种不同的标签噪声模式的实验调查，包括合成标签噪声、不完美的人工标注错误和系统性错误。我们的评估包括了在五个图像识别数据集和一个文本分类数据集上采用的十八种最先进的方法。同时，我们提供了关于为什么标签噪声会损害联邦学习的观察，并在此基础上利用一种基于表示感知的正则化方法来增强现有方法在对抗标签噪声时的鲁棒性。最后，我们讨论了这项工作的局限性，并提出了三个方向的未来研究。为了方便相关社区，我们在https://github.com/Sprinter1999/FNBench 开放了我们的源代码。

发布时间: 5/13/2025

查看原文

多模态Wi-Fi sensing简要概述

作者: Zijian Zhao

arXiv:2505.06682v1 交叉公告类型摘要：Wi-Fi 传感作为一种重要的无线传感技术，在集成传感与通信（ISAC）中崭露头角，提供低费用、高穿透性和增强的隐私性等多项优势。当前，它已在动作识别、人体定位和人群计数等多种应用中广泛使用。然而，Wi-Fi 传感也面临着一些挑战，如较低的抗干扰能力和数据收集的困难。最近，多模态 Wi-Fi 传感受到越来越多的关注，在这种情况下，其他模态可以作为教师，为 Wi-Fi 传感模型提供 ground truth 或增强的特征，以便学习，或者可以直接与 Wi-Fi 结合使用，以增强其传感能力。尽管这些方法在实际应用中已显示出有前景的结果和巨大的价值，但缺少对它们进行全面回顾的研究综述。为了解决这一空白，本文回顾了过去 24 个月内有关多模态 Wi-Fi 传感的研究文献，并强调了该领域的当前限制、挑战和未来方向。

发布时间: 5/13/2025

查看原文