arXiv 论文列表

Wasserstein 距离的可解释性增强：关于数据集偏移和传输现象的 Insights

作者: Philip Naumann, Jacob Kauffmann, Gr\'egoire Montavon

arXiv:2505.06123v1 类型: cross 摘要: Wasserstein 距离提供了一种强大的框架，用于比较数据分布。它们可以用于分析时间过程或检测数据中的不均匀性。然而，简单地计算 Wasserstein 距离或分析相应的运输映射（或耦合）可能不足以了解哪些因素导致较高的或较低的 Wasserstein 距离。在本文中，我们提出了一种基于可解释人工智能的新型解决方案，该解决方案使我们能够高效准确地将 Wasserstein 距离归因于各种数据组件，包括数据子组、输入特征或可解释的子空间。我们的方法在多种数据集和 Wasserstein 距离规范上实现了高精度，并通过两个实际案例展示了其实用价值。

发布时间: 5/12/2025

查看原文

深层学习在淋巴结分割中的应用：系统性回顾

作者: Jingguo Qu, Xinyang Han, Man-Lik Chui, Yao Pu, Simon Takadiyi Gunda, Ziman Chen, Jing Qin, Ann Dorothy King, Winnie Chiu-Wing Chu, Jing Cai, Michael Tin-Cheung Ying

arXiv:2505.06118v1 交叉公布类型：跨领域摘要：自动淋巴结分割是早期癌症检测和分期的计算机视觉任务取得进展的基础。传统的分割方法受到手动勾勒和操作员熟练度差异的限制，限制了它们实现高精度的能力。深度学习技术的引入为提高淋巴结图像分析的准确性提供了新的可能性。本研究评估了深度学习在淋巴结分割中的应用，并讨论了各种深度学习架构，如卷积神经网络、编码-解码网络和变压器，在不同模态的医学成像数据中的分析方法。尽管取得了进步，但仍然面临淋巴结形状多样性、准确标注数据集稀缺以及方法在不同成像模态下的鲁棒性和通用性不足等挑战。据我们所知，这是第一项提供深度学习技术在淋巴结分割任务中综合概述的研究。此外，本研究还探讨了未来研究的方向，包括多模态融合技术、迁移学习以及使用大规模预训练模型以克服当前限制并优化癌症诊断和治疗规划策略。

发布时间: 5/12/2025

查看原文

UniVLA：学习执行任意任务的以任务为中心的潜在动作

作者: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li

arXiv:2505.06111v1 公告类型：交叉摘要：通用机器人应该能够在各种环境中有效执行任务。然而，现有的大多数方法严重依赖于扩展带有动作注释的数据来增强其能力。因此，它们通常局限于单一的物理规范，并难以在不同的本体和环境中学习可转移的知识。为解决这些限制，我们提出了一种新的框架 UniVLA，用于学习跨本体的视觉-语言-动作（VLA）策略。我们的关键创新在于从视频中通过潜在动作模型推导出以任务为中心的动作表示，这使我们能够利用广泛范围的本体和视角的数据。为了减轻与任务无关的动力学效应，我们在 DINO 特征空间内引入语言指令并建立了潜在动作模型。由于从互联网规模的视频中学习得到的一般性策略可以通过高效的潜在动作解码部署到各种机器人中。我们在多个操控和导航基准测试以及实际机器人部署中取得了最先进的结果。与 OpenVLA 相比，UniVLA 在预训练计算量不到 1/20 和下游数据量不到 1/10 的情况下实现了更好的性能。随着异构数据的不断加入，包括人类视频，训练管道中的持续性能改进得到了观察。这些结果凸显了 UniVLA 在促进可扩展和高效机器人策略学习方面的潜力。

发布时间: 5/12/2025

查看原文

基于变压器模型的CMU-MOSEI数据集多模态情感分析

作者: Jugal Gajjar, Kaustik Ranaware

arXiv:2505.06110v1 交叉类型公告摘要：该项目使用CMU-MOSEI数据集进行了多模态情感分析，采用基于变换器的模型在早融合的框架下整合文本、音频和视觉模态。我们为每种模态使用了基于BERT的编码器，提取的嵌入在分类前进行拼接。该模型在测试集上取得了强劲的性能，实现了97.87%的7类准确率和0.9682的F1分数，展示了早融合在捕捉跨模态交互方面的有效性。训练过程中采用了Adam优化（学习率=1e-4）、dropout（0.3）和早停策略以确保泛化能力和健壮性。结果强调了变换器架构在建模多模态情感分析方面的优越性，低MAE（0.1060）表明情感强度预测的精准性。未来工作可能比较不同的融合策略或增强可解释性。该方法通过有效结合语言、声学和视觉线索来进行情感分析的多模态学习。

发布时间: 5/12/2025

查看原文

LLMs在具有挑战性的生物学基准测试中优于专家

作者: Lennart Justen

arXiv:2505.06108v1 宣布类型：交叉摘要：本研究系统评估了27个前沿的大规模语言模型在八个涵盖分子生物学、遗传学、克隆、病毒学和生物安全的多样化生物基准测试上的表现。这些基准测试范围涵盖了病毒学能力测试中的分子生物学、遗传学、克隆、病毒学和生物安全领域的众多方面。来自主要AI开发者在2022年11月到2025年4月之间发布的模型在每个基准测试中进行了十次独立运行的评估。研究结果表明，生物能力有了显著的提升。挑战性的文本子集在病毒学能力测试中的顶级模型在这段时间内的性能提高了4倍以上，现在顶级模型的表现比专家病毒学家的水平高出一倍。多个模型现在在诸如LAB-Bench克隆情境、GPQA和WMDP的生物学子集等其他具有挑战性的基准测试中达到了或超过了专家级水平。与预期相反，思维链在零样本评估中没有显著提高性能，而o3-mini和Claude 3.7 Sonnet中的扩展推理功能通常如预期的根据推理扩展来提高性能。PubMedQA基准测试以及MMLU和WMDP的生物学子集表现出低于100%的性能平台效应，这表明基准饱和以及底层基准测试数据中的错误。分析强调，随着AI系统的持续进步，需要更复杂的评估方法。

发布时间: 5/12/2025

查看原文

UniSymNet：受 transformer 引导的统一符号网络

作者: Xinxin Li, Juan Zhang, Da Li, Xingyu Liu, Jin Xu, Junping Yin

arXiv:2505.06091v1 交叉类型摘要：符号回归（SR）是一种从输入数据中自动发现数学表达式的强大技术。主流的SR算法在大量函数空间中搜索最优的符号树，但随着树结构复杂性的增加，限制了它们的性能。受到神经网络的启发，符号网络作为一种有前景的新范式已经出现。然而，现有的大多数符号网络仍然面临着一些挑战：二元非线性操作符集 $\{\times, \div\}$ 无法自然地扩展为多元操作符，且在固定架构下的训练往往会带来更高的复杂度和过拟合。在本文中，我们提出了一种统一符号网络（UniSymNet），将二元非线性操作符统一为嵌套的一元操作符，并定义了UniSymNet可以减少复杂性的条件。此外，我们使用一种新的标签编码方法预先训练一个变换器模型以指导结构选择，并采用特定于目标的优化策略来学习符号网络的参数。UniSymNet在低维度标准基准和高维度SRBench上展现出了高的拟合精度、出色的符号解方案率以及相对较低的表达式复杂度，取得了具有竞争力的性能。

发布时间: 5/12/2025

查看原文

评估Tenstorrent的RISC-V矩阵乘法加速能力

作者: Hiari Pizzini Cavagna, Daniele Cesarini, Andrea Bartolini

arXiv:2505.06085v1 Announce Type: cross 摘要：随着对于生成式AI作为大型语言模型（LLMs）服务的需求增加，已经推动了优化计算效率和能源消耗的专用硬件架构的需求。本文评估了Tenstorrent Grayskull e75 RISC-V加速器在较低数值精度下执行基本线性代数内核的性能，这是LLM计算中的基本操作。我们详细介绍了Grayskull的执行模型、网格大小、矩阵维度、数据格式以及数值精度对计算效率的影响。此外，我们将Grayskull的性能与具有张量加速的最新架构进行了比较，包括Intel Sapphire Rapids处理器和两个NVIDIA GPU（V100和A100）。尽管NVIDIA GPUs在原始性能上占据主导地位，但Grayskull在能耗和计算吞吐量之间表现出竞争力的折衷，BF16的峰值性能达到1.55 TFLOPs/Watt。

发布时间: 5/12/2025

查看原文

PYRREGULAR：一种统一的不规则时间序列框架，附分类基准

作者: Francesco Spinnato, Cristiano Landi

arXiv:2505.06047v1 公告类型: cross 摘要：不规则时间数据因其记录频率不同、观测持续时间不一以及缺失值而具有显著挑战性，这些挑战在移动性、医疗保健和环境科学等领域普遍存在。现有研究社区往往忽视或孤立地解决这些问题，导致工具和方法碎片化。为弥补这一差距，我们提出了一种统一框架，并建立了首个标准化的时间序列分类数据集仓库，基于共同的数组格式以增强互操作性。该仓库涵盖了34个数据集，我们在这基础上对来自不同领域和社区的12个分类器模型进行了基准测试。本工作旨在集中研究努力，并促进对不规则时间数据分析方法的更稳健评估。

发布时间: 5/12/2025

查看原文

深度Q学习通过FBSDE系统的企业逼近定理

作者: Qian Qi

arXiv:2505.06023v1 类型:交叉摘要：深度Q网络（DQNs）的逼近能力通常通过通用的普遍逼近定理（UATs）来证明，这些定理并未利用最优Q函数的内在结构特性，最优Q函数是贝尔曼方程的解。本文为一类具有模仿贝尔曼更新内在迭代精细化过程的体系结构的DQNs建立了UAT。分析的核心要素是正则性的传播：虽然单个贝尔曼算子的应用表现出正则性，这种性质可以通过倒向随机微分方程（BSDEs）理论提供分析工具，但整个价值迭代序列的统一正则性——具体而言，在标准问题数据的Lipschitz假设下，这些值迭代的具体迭代在紧致域上的统一Lipschitz连续性——是从有限时间区间的动力学编程原理中推导出来的。我们展示了作为一个作用在函数空间上的神经算子的深度残差网络的层可以逼近贝尔曼算子的作用。由此产生的逼近定理本质上与控制问题的结构相关，提供了一种网络深度直接对应于价值函数细化迭代的证明技术，并伴有受控的误差传播。这种视角揭示了网络在价值函数空间上的操作具有动态系统的观点。

发布时间: 5/12/2025

查看原文

面向教学的一阶逻辑最小 sequent calculus：收获与启示

arXiv:2505.05988v1 类别: cross 摘要: MiniCalc 是一个基于最小 sequent calculus 的网络应用，用于教授一阶逻辑。作为选项，证明可以在 Isabelle 证明助手中标记验证。我们介绍了近年来在我们大学使用该工具时学到的经验。

发布时间: 5/12/2025

查看原文