arXiv 论文列表

使用多模态视频分析、多视角融合和分层贝叶斯模型的自动ARAT评分：一项临床医生研究

作者: Tamim Ahmed, Thanassis Rikakis

arXiv:2505.01680v1 类型: cross 摘要: 对中风康复过程中上肢评估所使用的行动研究手臂测验（ARAT）进行手工评分既耗时又不一致。我们提出了一种基于多模态视频分析的自动化ARAT评分系统，该系统结合使用了SlowFast、I3D和基于Transformer的模型，并利用OpenPose的关节点和物体位置信息。我们的方法采用多视角数据（同侧、对侧和顶部视角），通过早期和晚期融合相结合的方式，在不同视角和模型之间联合特征。层次贝叶斯模型（HBMs）推断运动质量的组成部分，增强其可解释性。临床人员仪表板显示任务分数、执行时间和质量评估结果。我们进行了一项研究，五名临床人员审核了由我们系统生成的500个视频评分，提供了关于其准确性和易用性的反馈。在中风康复数据集上评估，我们框架在晚期融合下的验证准确率为89.0%，HBMs与手工评估结果高度一致。这项工作通过提供一个可扩展且可解释的解决方案，并得到临床验证，推动了自动化康复的发展。

发布时间: 5/6/2025

查看原文

部分域适应的软遮罩半对偶最优传输

作者: Yi-Ming Zhai, Chuan-Xian Ren, Hong Yan

arXiv:2505.01664v1 宣传类型: 交叉摘要: 视觉领域适应旨在通过利用标记源域的知识来学习未标记目标域的判别性和领域不变表示。部分领域适应（PDA）是一个通用且实际的场景，其中目标标签空间是源标签空间的子集。由于领域漂移以及不同领域的不相同标签空间，PDA 存在挑战。本文提出了一种软掩码半对偶最优运输（SSOT）方法来解决 PDA 问题。具体来说，估计了域的类别权重，然后构造了一个加权后的源域，这有利于在目标域上进行条件类别分布匹配。通过类别预测构建了一个软掩码的运输距离矩阵，这将增强在共用特征空间中最优运输的类别导向表示能力。为了处理大规模最优运输问题，采用半对偶形式的带熵正则化 Kantorovich 问题，因为其可以通过梯度优化算法进行优化。此外，由于其强大的拟合能力，利用神经网络来近似 Kantorovich 潜力函数。这种网络参数化也允许将对偶变量推广到输入分布的支持之外。SSOT 模型基于神经网络，并可通过端到端的方式交替优化。在四个基准数据集上进行了广泛的实验，以证明 SSOT 的有效性。

发布时间: 5/6/2025

查看原文

因果公平节点分类在非IID图数据上

作者: Yucong Dai, Lu Zhang, Yaowei Hu, Susan Gauch, Yongkai Wu

arXiv:2505.01652v1 宣布类型:跨学科摘要：公平的机器学习旨在识别和减轻以人口统计属性（如种族和性别）为特征的不利人群在预测中的偏见。最近，一些工作将公平性扩展到图数据，如社交网络，但大多数工作忽略了数据实例之间的因果关系。本文解决了公平感知机器学习算法中普遍存在的挑战，这些算法通常假设数据是独立同分布（IID）的。我们针对数据实例相互连接，影响公平干预结果的非IID、图基设置进行了研究。我们基于网络结构因果模型（NSCM）框架，并提出两个主要假设：可分解性和图独立性，这些假设使得在非IID设置下使用do-因果运算符计算干预分布成为可能。基于这些假设，我们开发了因果推理消息传递变分自编码器（MPVA），以计算干预分布并利用估计的干预分布实现因果公平节点分类。在半合成数据集和真实世界数据集上的实证评估表明，MPVA通过有效近似干预分布并减轻偏见，在性能上优于传统方法。我们的研究发现的含义突显了因果公平在复杂机器学习应用中的潜力，并为进一步研究放宽初始假设以增强模型公平性开辟了前景。

发布时间: 5/6/2025

查看原文

基于简单老化策略的SMS-EMOA的可扩展加速方法

作者: Mingfeng Li, Weijie Zheng, Benjamin Doerr

arXiv:2505.01647v1 宣布类型: cross 摘要: 与单目标进化算法不同，在单目标进化算法中，非精英主义是一个已确立的概念，多目标进化算法几乎总是以贪婪的方式选择下一代种群。唯一的例外是Bian, Zhou, Li, and Qian (IJCAI 2023)提出了SMS-EMOA的一种随机选择机制，并证明它可以将具有问题规模$n$和间隔参数$k$的双目标跳跃基准 Pareto 前沿的计算速度提升一个因子$\max\{1, 2^{k/4}/n\}$。虽然这是非精英选择首次被证明可以提升计算速度，这表明了一种非常有趣的研究方向，但需要注意的是，真正的加速只发生在$k \ge 4\log_2(n)$时，此时运行时间是超多项式的，并且随着时间目标数量的增加，优势会减弱，如后来的工作所示。在本文中，我们提出了一种基于年龄的不同非精英选择机制，该机制免除了年轻于某一定年龄的个体被移除的可能性。这纠正了随机选择的两个不足之处：我们证明了运行速度可以获得一个因子$\max\{1,\Theta(k)^{k-1}\}$的提升，而与目标数量无关。特别是，当$k$为常数时，这是唯一可以观察到多项式运行时间的设置，这种情况下的积极加速已经可以观察到。总体而言，这项结果支持非精英选择方案的使用，但表明基于年龄的机制比随机选择机制可能更为强大。

发布时间: 5/6/2025

查看原文

仅RGB的 wildfire 温度推断——基于SAM引导的多模态蒸馏使用辐射度_ground_truth

作者: Michael Marinaccio, Fatemeh Afghah

arXiv:2505.01638v1 类别：交叉学科摘要：使用无人驾驶航空器（UAV）进行高保真森林火灾监测通常需要多模态传感，尤其是RGB和热成像，这会增加硬件成本和电力消耗。本文介绍了一种新颖的多模态教师-学生知识蒸馏框架SAM-TIFF，该框架仅使用RGB输入即可实现像素级火灾温度预测和分割。一种在配对RGB-热成像图像和辐射度TIFF地面真实值上训练的多模态教师网络将其知识传递给单模态RGB学生网络，从而实现热传感器免费推理。分割监督通过SAM指导的掩码生成和基于TOPSIS的选择，以及Canny边缘检测和Otsu阈值处理管道自动生成。我们的方法是首次从RGB无人机数据中实现逐像素温度回归，展示了在最近的FLAME 3数据集上的强大泛化能力。本文为无需热传感器的轻量级、低成本UAV基于的森林火灾监测系统奠定了基础。

发布时间: 5/6/2025

查看原文

多门铁电场效应晶体管的树突计算

作者: A N M Nafiul Islam, Xuezhong Niu, Jiahui Duan, Shubham Kumar, Kai Ni, Abhronil Sengupta

arXiv:2505.01635v1 Announce Type: cross 摘要：虽然受大脑神经系统的启发，人工神经网络通常采用点神经元，这比其生物对应物提供了远少得多的计算复杂性。神经元具有树突状树冠，连接到不同的突触集，并提供局部非线性累积，这对于处理和学习起着关键作用。受到这一启发，我们提出了一种基于多门铁电场效应晶体管的新型神经元设计，以模仿树突。它利用铁电非线性在树突分支内进行局部计算，同时利用晶体管的作用生成最终的神经元输出。这种分支结构为在硬件集成中使用较小的交叉栏阵列铺平了道路，从而提高了效率。通过使用经过实验校准的器件-电路-算法协同仿真框架，我们证明了包含我们树突状神经元的网络在性能上优于没有树突的更大网络（大约少17倍可训练权重参数）。这些发现表明，树突状硬件可以在针对边缘应用优化的神经形态系统中显著提高计算效率和学习能力。

发布时间: 5/6/2025

查看原文

基于传输学习的深度残差学习在清洁和噪声环境中的语音识别

作者: Noussaiba Djeffal, Djamel Addou, Hamza Kheddar, Sid Ahmed Selouani

arXiv:2505.01632v1 宣告类型: cross 摘要：应对非平稳环境噪声对自动语音识别(ASR)的负面影响一直是持续且重要的研究焦点。尽管取得了进展，这一挑战仍是主要问题之一。最近，数据驱动的监督方法，如深度神经网络，已逐渐成为传统无监督方法的有前途的替代方案。通过广泛训练，这些方法有可能克服各种现实生活中的声学环境所带来的挑战。基于此，本文提出了一种新颖的神经框架，将稳健的前端集成到ASR系统中，适用于清洁和噪声环境。利用Aurora-2语音数据库，作者基于Residual神经网络（ResNet）的迁移学习方法评估了用于Mel-frequency的声学特征集的有效性。实验结果表明，与卷积神经网络（CNN）和长短期记忆（LSTM）网络相比，这种方法在清洁模式下的识别准确率提高了98.94%，在噪声模式下提高了91.21%。

发布时间: 5/6/2025

查看原文

基于技能的风险规划安全强化学习

作者: Hanping Zhang, Yuhong Guo

arXiv:2505.01619v1 安全类型：交叉摘要：安全强化学习（Safe RL）旨在通过与可能因不当行为产生高成本或导致严重后果的真实世界环境进行交互来保证安全性。在本文中，我们提出了一种新的安全性技能规划（SSkP）方法，通过利用辅助的离线演示数据来增强有效的安全 RL。SSkP 包含两阶段过程。首先，我们使用部分监督学习（PU学习）从离线演示数据中学习一个技能风险预测器。然后，基于所学的技能风险预测器，我们开发了一个新颖的风险规划过程，通过与在线 RL 环境的交互来增强在线安全 RL，并高效地学习一个风险厌恶的安全策略，同时不断适应环境。我们分别在几个基准机械臂仿真环境中进行了实验。实验结果表明，所提出的方法在性能上始终优于此前最先进的安全 RL 方法。

发布时间: 5/6/2025

查看原文

别懒惰：CompleteP 使深度变压器计算高效

作者: Nolan Dey, Bin Claire Zhang, Lorenzo Noci, Mufan Li, Blake Bordelon, Shane Bergsma, Cengiz Pehlevan, Boris Hanin, Joel Hestness

arXiv:2505.01618v1 类型: 交叉摘要: 我们研究了在使用不同参数化（即随模型尺寸变化调整模型和优化器超参数的规则）进行大规模语言模型训练时的计算效率。一些参数化在模型深度发生变化时无法顺利转移最佳基础超参数（如学习率），这需要从业者要么随着模型规模的扩大重新调整这些超参数（成本高昂），要么在重新调整超参数变得不可行时接受次优的训练效果。即便某些参数化可以实现超参数的转移，我们发展理论证明，在懒学习的机制下，仍然可能存在层仅学习其线性化附近特征的情况，从而阻碍了深度和非线性的有效利用。最后，我们确定并采用了被称为CompleteP的独特参数化方法，该方法实现了所有层的宽度和深度维度的超参数转移以及非懒学习。CompleteP使得更广泛的模型宽度/深度比能够保持计算效率，解锁了更适合不同硬件配置和操作环境的模型形状。此外，CompleteP在先前的最先进的方法上实现了12-34%的计算效率提升。

发布时间: 5/6/2025

查看原文

自主海洋导航的多模态多视图深层融合

作者: Dimitrios Dagdilelis, Panagiotis Grigoriadis, Roberto Galeazzi

arXiv:2505.01615v1 交叉注意力类型: 横向交叉摘要: 我们提出了一种基于交叉注意力变换器的方法，用于多模态传感器融合，以构建支持更安全自主海洋航行的船舶周围环境的鸟瞰图。该模型深度融合了多视图RGB和长波红外图像以及稀疏的LiDAR点云。训练过程还结合了X波段雷达和电子海图数据，以提供预测信息。由此产生的视图提供了详细的可靠场景表示，提高导航精度和鲁棒性。实际海试结果证实，即使在恶劣天气和复杂的海洋环境中，该方法仍然有效。

发布时间: 5/6/2025

查看原文