arXiv 论文列表

作者: Matthias Schwab, Mathias Pamminger, Christian Kremser, Agnes Mayr

arXiv:2502.03272v1 宣告类型: cross 摘要: 目的: 开发并评估一种基于深度学习的方法,以实现完全自动化的梗死区域分割。材料与方法: 对于这项回顾性研究,使用了两层和三层卷积神经网络(CNN)构成的级联框架,专门用于识别晚期钆增强(LGE)心脏磁共振(CMR)图像上的缺血性心肌疤痕。该框架在由144个检查组成的研究专用训练数据集上进行了训练。在同一家机构的一个独立测试数据集上进行定量比较,该测试数据集包括2021年至2023年间获得的152个检查的图像,该数据集对基于人工智能(AI)的分割和手动分割进行了比较。此外,通过两位CMR专家的盲测实验,对人工和AI生成的轮廓分割准确性进行了定性评估。结果: 手动计算和自动计算的梗死体积之间存在 excellent 的一致程度 ($\rho_c$ = 0.9)。定性评估显示,与基于人力的测量相比,专家更频繁地认为基于AI的分割更能准确地代表梗死的实际范围 (p < 0.001, 33.4% AI, 25.1% 人为, 41.5% 相同)。相反,对于微血管阻塞(MVO)的分割,人工测量仍然更受欢迎 (11.3% AI, 55.6% 人为, 33.1% 相同)。结论: 这种完全自动化的分割管道能够在极短的时间内计算CMR梗死大小,无需对输入图像进行任何预处理,同时与训练有素的人类观察者的分割质量相符。在盲测实验中,专家更频繁地偏好自动化梗死分割而非手工分割,为潜在的临床应用铺平了道路。

发布时间: 2/6/2025

查看原文

当预训练视觉表示不足时：visuo-motor机器人学习的局限性

作者: Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier, Chris Xiaoxuan Lu, Oisin Mac Aodha

arXiv:2502.03270v1 交叉类型: cross 摘要：将预训练视觉表示（PVRs）集成到视觉-运动机器人学习中，已成为从零开始训练视觉编码器的一个有 promise 的替代方案。然而，在策略学习的背景下，PVRs 面临着关键挑战，包括时间纠缠以及即使在存在轻微场景变化的情况下也不能泛化。这些限制阻碍了在需要时间意识和对场景变化鲁棒性的任务中的性能。这项工作识别了这些不足，并提出了解决这些问题的方法。首先，我们通过增加时间感知和任务完成感来增强 PVR 功能，从而在时间上有效分离它们。其次，我们引入了一个模块，该模块能够在评估外域场景时学习选择性地关注与任务相关的局部特征，增强其鲁棒性。我们的实验结果表明，特别是在使用掩码目标训练的 PVR 中，性能有了显著提高，并验证了我们增强措施的有效性，以解决 PVR 特有的限制。

发布时间: 2/6/2025

查看原文

带有关系aware表示学习和迭代分类校准的长尾医疗诊断

作者: Li Pan, Yupei Zhang, Qiushi Yang, Tan Li, Zhen Chen

arXiv:2502.03238v1 类型: cross 摘要: 近年来，计算机辅助诊断已经显示出了令人鼓舞的性能，有效地减轻了临床医生的工作负担。然而，不同疾病固有的样本不平衡导致算法偏向于多数类别，从而对稀有类别表现不佳。现有工作将这一挑战形式化为长尾问题，并尝试通过分离特征表示和分类来解决。然而，由于尾部类别的不平衡分布和样本有限，这些工作容易产生有偏的特征表示学习和不足的分类器校准。为了解决这些问题，我们提出了一种新的长尾医学诊断（LMD）框架，用于不平衡医学图像分类的长尾数据集。在初始阶段，我们开发了一种关系感知的表示学习（RRL）方案，通过鼓励编码器通过不同的数据增强来捕捉内在语义特征，从而增强表示能力。在后续阶段，我们提出了一种迭代分类器校准（ICC）方案，通过迭代校准分类器来实现。这通过生成大量平衡的虚拟特征并使用期望最大化方法微调编码器来实现。所提出的ICC补偿了少数类，促进了无偏分类器优化，同时保留了多数类的诊断知识。在三个公开的长尾医学数据集上的全面实验表明，我们的LMD框架显著超过了现有的最先进的方法。源代码可以在https://github.com/peterlipan/LMD访问。

发布时间: 2/6/2025

查看原文

硬币的另一面：从层剥离视角揭示模型聚合在联邦学习中的缺点

作者: Guogang Zhu, Xuefeng Liu, Jianwei Niu, Shaojie Tang, Xinghao Wu

arXiv:2502.03231v1 宣告类型: cross 摘要：在联邦学习（FL）中，模型聚合是一个关键步骤，通过该步骤，多个客户端可以与彼此共享其知识。然而，人们也普遍认识到，当聚合后的模型被返回给每个客户端时，在多次本地训练之后，其在本地数据上的表现才会变得较好。这种暂时性的性能下降可能会影响FL模型的收敛速度。大多数关于FL的研究将这种性能下降视为客户端之间知识共享的固有成本，并不对其进行特别关注。尽管有些研究直接致力于设计缓解该问题的技术，但对于这种性能下降背后的原因的深入调查尚未开展。为了弥补这一缺口，我们对不同数据集和模型架构下的模型聚合进行了逐层分析。我们的研究发现，性能下降可以归因于聚合过程中发生的两大后果：（1）它破坏了深度神经网络（DNNs）中的特征变异抑制，（2）它减弱了特征与后续参数之间的耦合。基于这些发现，我们提出了一系列简单有效的策略，可以在保持模型聚合带来的益处的同时减轻其负面影响。据我们所知，我们的工作是首次对模型聚合进行逐层分析，可能为开发更有效的FL算法开辟了途径。

发布时间: 2/6/2025

查看原文

iVISPAR -- 一个交互式视觉-空间推理基准测试用于VLMs

作者: Julius Mayer, Mohamad Ballout, Serwan Jassim, Farbod Nosrat Nezami, Elia Bruni

arXiv:2502.03214v1 交互类型: 交叉摘要：视觉-语言模型（VLMs）在空间推理和视觉对齐方面存在问题。为克服这些限制，我们提出了iVISPAR，这是一个互动多模态基准，旨在评估VLMs作为代理的空间推理能力。iVISPAR基于滑动拼图游戏的一种变体——一个需要逻辑规划、空间意识和多步推理的经典问题。该基准支持视觉2D、3D和文本输入模态，使对VLMs的规划和推理技能进行全面评估成为可能。我们评估了一系列最新的开源和封闭源VLMs，比较了它们的性能，并提供最优路径解决方案和人类基线来评估任务的复杂性和人类的可行性。结果显示，虽然一些VLMs在简单空间任务上表现良好，但在更复杂配置和问题属性方面遇到困难。值得注意的是，尽管VLMs在2D视觉方面通常优于3D或基于文本的表示，但它们始终未能达到人类性能，突显了视觉对齐的持续挑战。这强调了当前VLM能力中的关键缺陷，突显了它们在实现人类级认知方面的局限性。

发布时间: 2/6/2025

查看原文

一体化通用 humanoid 全身控制器用于精细 legs 运动

作者: Yufei Xue, Wentao Dong, Minghuan Liu, Weinan Zhang, Jiangmiao Pang

arXiv:2502.03206v1 交叉公告类型摘要：行 marzo 运动是类人机器人的一项基本技能。然而，现有的大多数工作将行 marchro 运动视为单一、繁琐、不可扩展和被动的运动形式。这限制了类人机器人的运动学能力。相比之下，人类具备多种多样的运动能力，如跑步、跳跃、蹦跳，并可以精细调整步行参数，例如频率和脚的高度。在本文中，我们研究了将这种多样性引入类人机器人行 marchro 运动的方法，并提出了 HUGWBC：一个统一且通用的类人全身控制器，以实现细粒度的行 marchro 运动。通过在任务和行为方面设计通用的命令空间，并结合先进的技术如对称损失和干预训练，在模拟中学习一个全身类人的控制策略，HUGWBC 允许现实世界中的类人机器人产生各种自然步态，包括行走（奔跑）、跳跃、站立和蹦跳，同时还允许通过自定义参数（如频率、脚摆动高度）进一步结合不同的身体高度、腰部旋转和身体俯仰，所有这些都在单一策略中实现。除了行 marchro 运动之外，HUGWBC 还支持来自外部上身控制器（如远程操作）的实时干预，从而在任何行 marchro 行为下保持精确控制的同时进行行 marchro-操作。我们的实验验证了 HUGWBC 在有或无上身干预时具备高跟踪精度和鲁棒性，且进一步分析了各种命令对类人机器人运动的影响，并提供了这些命令之间关系的见解。据我们所知，HUGWBC 是第一个支持如此细粒度行 marchro 行为且具备高鲁棒性和灵活性的类人全身控制器。

发布时间: 2/6/2025

查看原文

通过令牌级跨层熵提高解码事实性

作者: Jialiang Wu, Yi Shen, Sijia Liu, Yi Tang, Sen Song, Xiaoyi Wang, Longjun Cai

arXiv:2502.03199v1 Announce Type: cross 摘要：尽管大型语言模型（LLMs）具有令人印象深刻的容量，但它们在拥有正确知识的情况下，仍然经常面临生成不准确或虚假内容的幻觉问题。在本文中，我们将隐藏状态预测变化与输出事实性的关系探索深入到更深的、按词的层面。基于这些洞察，我们提出了跨层熵增强解码（END），这是一种无需额外训练即可缓解幻觉的方法。END 利用跨层内部概率变化，单独量化每个候选词所需的事实性知识，并调整最终的预测分布，以优先考虑具有更高事实性的词。在幻觉和问答基准测试上的实验表明，END 显著增强了生成内容的真实性和信息性，同时保持了稳健的问答准确性。此外，我们的工作为理解内在知识与输出事实性之间的关系提供了更深入的视角。

发布时间: 2/6/2025

查看原文

Euska~nolDS：一种天然来源的巴斯克-西班牙语代码转换语料库

作者: Maite Heredia, Jeremy Barnes, Aitor Soroa

arXiv:2502.03188v1 Announce Type: cross 摘要：语言转换（CS）仍然是自然语言处理（NLP）中的一个重要挑战，主要原因是缺乏相关数据。在伊比利亚半岛北部巴斯克语与西班牙语接触的背景下，CS在正式和非正式的自发互动中频繁发生。然而，用于分析这一现象并支持为这一语言对开发和评估能够理解和生成代码混合语言的模型的资源几乎是不存在的。我们提出了一种开发巴斯克-西班牙语代码混合语自然来源语料库的首个方法。我们的方法包括使用语言识别模型从现有的语料库中识别CS文本，然后进行人工验证以获得可靠的CS样本集。我们介绍了我们语料库的特性，并将其命名为Euska\~nolDS。

发布时间: 2/6/2025

查看原文

基于检索增强的大语言模型在表格数据上实现可扩展的在上下文学习

作者: Xumeng Wen, Shun Zheng, Zhen Xu, Yiming Sun, Jiang Bian

arXiv:2502.03147v1 宣传类型: cross 摘要：近期的研究表明，通过后训练定制的大型语言模型（LLMs）可以在表格数据上获得通用的表格上下文学习（TabICL）能力。这些模型能够在不同数据模式和任务领域之间有效迁移。然而，现有的LLM基于的TabICL方法受到LLMs序列长度限制的影响，因为以纯文本形式表示的表格实例会消耗大量的令牌，从而限制了它们在多示例场景下的应用。为了解决这一限制，并且能够扩展任何数据大小的TabICL，我们提出了一种针对表格数据定制的检索增强LLMs。我们的方法结合了一个定制的检索模块，并且包括以检索为指导的LLM指令调优。这使得LLMs能够有效利用更大的数据集，在69个广泛认可的数据集上实现了显著改进的性能，并且展现出了积极的扩展行为。与最先进的表格模型的广泛比较表明，尽管基于LLM的TabICL在整体性能上仍然落后于高度调优的数值模型，但它在有限上下文中揭示了强大的算法、增强了集成多样性，并且在特定数据集上的表现尤为出色。这些独特的特性突显了语言作为一种通用和易用的界面，对于可扩展表格数据学习的潜力。

发布时间: 2/6/2025

查看原文

2025年哥谭数据集：一个可用于入侵检测和安全研究的可再现大规模物联网网络数据集

作者: Othmane Belarbi, Theodoros Spyridopoulos, Eirini Anthi, Omer Rana, Pietro Carnelli, Aftab Khan

arXiv:2502.03134v1 交叉公告类型：cross 摘要：在本文中，我们介绍了物联网网络流量的数据集。我们的数据集利用了Gotham测试床生成，这是一个模拟的大规模物联网(IoT)网络，旨在为网络安全性研究提供一种现实且多变的环境。该测试床包括78个运行在各种协议上的仿物联网设备，包括MQTT、CoAP和RTSP。网络流量使用tcpdump以Packet Capture (PCAP)格式捕获，并记录了正常和恶意流量。恶意流量通过脚本攻击生成，涵盖了多种形式的攻击类型，如拒绝服务（DoS）、Telnet暴力破解、网络扫描、CoAP放大和各种阶段的命令和控制（C&C）通信。数据随后使用Tshark工具在Python中进行处理以提取特征，结果数据被转换为逗号分隔值(CSV)格式并进行了标记。数据仓库包括以PCAP格式存在的原始网络流量以及以CSV格式存在的标记化数据。我们的数据集是分布式收集的，网络流量在物联网网关与设备之间的接口处独立地为每个物联网设备进行了捕获。随着其多样化的流量模式和攻击场景，该数据集为开发适用于复杂大规模物联网环境的入侵检测系统和安全机制提供了宝贵的资源。该数据集已在Zenodo上公开。

发布时间: 2/6/2025

查看原文