arXiv 论文列表

作者: Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma, Hassan Ghasemzadeh

arXiv:2504.06987v1 交叉公告类型摘要：代谢综合征（MetS）是由多种相互关联的风险因素组成的群集，这些风险因素显著增加了心血管疾病和2型糖尿病的风险。尽管其在全球范围内普遍存在，但由于现有研究中存在类不平衡、数据稀缺性和方法不一致等问题，准确预测MetS仍具有挑战性。在本文中，我们通过系统评估和优化用于MetS预测的机器学习（ML）模型，利用先进的数据平衡技术和反事实分析来应对这些挑战。我们训练并比较了包括XGBoost、随机森林、TabNet等在内的多种ML模型，并在随机过采样（ROS）、SMOTE、ADASYN和CTGAN等多种数据平衡技术下进行比较。除此之外，我们引入了一种新颖的混合框架MetaBoost，该框架结合了SMOTE、ADASYN和CTGAN，通过加权平均和迭代权重调整来优化合成数据生成，从而提高模型性能（相对于个体平衡技术，实现了1.14%的准确率改进）。进行了全面的反事实分析，以量化需要改变以使个体从高风险类别转变为低风险类别的特征水平变化。结果表明，血糖（50.3%）和甘油三酯（46.7%）是最常被修改的特征，突显了它们在MetS风险降低中的临床意义。此外，概率分析显示，血糖升高（85.5%的可能性）和甘油三酯升高（74.9%的后验概率）是 strongest 预测因子。本研究不仅推进了MetS预测的方法严谨性，还为临床医生和研究人员提供了可操作的见解，突显了机器学习在减轻代谢综合征公共卫生负担方面的潜力。

发布时间: 4/10/2025

查看原文

基于RNN-转导的在噪声音素目标上的语音识别损失函数

作者: Vladimir Bataev

arXiv:2504.06963v1 交叉类型：摘要：在工业管道中，训练语音识别系统时使用噪声转录文本是一个重大挑战，因为数据集非常庞大，确保每个实例的准确转录是困难的。在这项工作中，我们引入了新颖的损失函数，以减轻 RNN-Transducer 模型中转录错误的影响。我们的 Star-Transducer 损失通过在损失网络中引入“跳过帧”转换来解决删除错误，与使用准确转录文本训练的模型相比，恢复了超过 90% 的系统性能。Bypass-Transducer 损失使用“跳过标记”转换来应对插入错误，恢复了超过 60% 的质量。最后，Target-Robust Transducer 损失结合了这些方法，提供了对任意错误的稳健性能。实验结果表明，Target-Robust Transducer 损失在嘈杂数据上显著提升了 RNN-T 的性能，与准确转录的数据相比，恢复了超过 70% 的质量。

发布时间: 4/10/2025

查看原文

基于动态数据集管理的高效自我监督学习在地球观测中的应用

作者: Thomas Kerdreux, Alexandre Tuel, Quentin Febvre, Alexis Mouche, Bertrand Chapron

arXiv:2504.06962v1 宣告类型: cross 摘要: 自监督学习(SSL)使地球观测(EO)视觉基础模型的发展成为可能，展示了其在各种遥感任务中的强迁移性。尽管先前的工作主要集中在网络架构和训练策略上，但在平衡和多样化预训练数据集方面进行数据集策展的作用仍然未被充分探索。在EO领域，由于卫星图像中普遍存在的冗余性和长尾分布，这一挑战被放大，这可能导致偏斜的表示和低效的训练。在这项工作中，我们提出了一种动态数据集剪枝策略，旨在通过最大化数据集的多样性和平衡性来改进SSL预训练。我们的方法通过迭代细化训练集而无需预先存在的特征提取器，使其非常适合数据集策划有限或不可用的领域。我们在Sentinel-1波模式(WV)合成孔径雷达(SAR)存档上展示了我们的方法，这是一个以海洋观测为主的具有挑战性的数据集。我们从头开始训练了一个跨越10年的整个Sentinel-1 WV存档模型。在三个下游任务中，我们的结果显示动态剪枝提高了计算效率和表示质量，从而增强了迁移性。我们还在github.com/galeio-research/nereus-sar-models/上发布了Nereus-SAR-1的权重，这是Nereus系列的第一个模型，该系列是一系列用于雷达图像的海洋观测和分析的基础模型。

发布时间: 4/10/2025

查看原文

适配计算剪枝用于遗忘变换器

作者: Zhixuan Lin, Johan Obando-Ceron, Xu Owen He, Aaron Courville

arXiv:2504.06949v1 宣布类型: cross 摘要: 最近提出的遗忘变换器（FoX）将忘却门引入到softmax注意力中，并且与基于标准RoPE的变换器相比，它在性能上显示出了持续更优或相当的结果。值得注意的是，FoX中的许多注意力头倾向于快速忘却，导致它们在每个时间步的输出主要依赖于局部上下文。基于这一观察，我们为FoX提出了自适应计算剪枝（ACP），这是一种动态剪枝输入-输出依赖计算的方法，这些依赖计算被忘却门强烈衰减。这通过使用动态设置的剪枝阈值来实现，以确保剪枝后的注意权重仍然可以忽略不计。我们将ACP应用于带有FoX的语言模型预训练，并展示了无论模型大小和上下文长度如何，它都能一致地将softmax注意力的运算量降低约70%，从而在训练吞吐量上取得了大约10%到35%的提升。此外，更长的上下文长度能带来更大的计算节省。所有这些速度提升都是在没有性能下降的情况下实现的。我们还进行了若干分析，以更深入地了解我们的方法，例如检查剪枝模式，并分析不同注意力头之间运算量节省的分布情况。我们的代码可在 https://github.com/zhixuan-lin/arctic-fox 获取。

发布时间: 4/10/2025

查看原文

超越工具：生成式AI作为教育的认知基础设施

作者: Bodong Chen

arXiv:2504.06928v1 宣告类型: cross 摘要：随着生成式人工智能迅速融入全球教育基础设施，它正在改变知识的创造、验证和共享方式，然而当前关于这一现象的讨论并未充分探讨其作为实现教学和学习的epistemic基础设施的含义。本文探讨了AI系统在教育中作为epistemic基础设施的功能及其对人类epistemic代理的影响。本文采用情境认知的观点，并遵循一种价值敏感设计的方法，对两种代表性AI系统在教育环境中的技术进行了调查，分析了它们在三个方面对教师实践的影响：技能化的epistemic行动的便利性，epistemic敏感性的支持，以及对长期习惯形成的含义。分析揭示，当前的AI系统未能充分支持教师的技能化的epistemic行动，未能充分促进epistemic敏感性，并且可能培养出以效率而非epistemic代理为导向的不良习惯。为了应对这些挑战，本文建议承认教育中正在发生的基础设施转型，开发能够激发技能化行同时维护epistemic规范的AI环境，并让教育工作者参与到AI设计过程中——旨在促进符合核心教育价值观并保持人类epistemic代理的AI整合。

发布时间: 4/10/2025

查看原文

视觉-语言模型准备好进行饮食评估了吗？探索AI驱动食物图像识别的下一个前沿

作者: Sergio Romero-Tapiador, Ruben Tolosana, Blanca Lacruz-Pleguezuelos, Laura Judith Marcos Zambrano, Guadalupe X. Baz\'an, Isabel Espinosa-Salinas, Julian Fierrez, Javier Ortega-Garcia, Enrique Carrillo de Santa Pau, Aythami Morales

arXiv:2504.06925v1 Announce Type: 交叉摘要：基于食物图像的自动饮食评估仍然是一个挑战，需要精确的食物检测、分割和分类。视觉-语言模型（VLMs）通过结合视觉和文本推理提供了新的可能性。在这项研究中，我们评估了六种最先进的VLMs（ChatGPT、Gemini、Claude、Moondream、DeepSeek和LLaVA），分析了它们在不同水平上的食物识别能力。在实验框架中，我们介绍了一个独特的食物图像数据库FoodNExTDB，其中包含9,263张专家标注的图像，分为10个类别（如“蛋白质来源”）、62个子类别（如“家禽”）和9种烹饪风格（如“烤制”）。总共，FoodNExTDB 包含50,000个营养标签，由七位专家手动标注数据库中的所有图像。我们还提出了一种新的评估指标，即专家加权召回率（EWR），以考虑注释者之间的变异性。结果显示，闭源模型优于开源模型，在包含单一产品图像的食物识别中达到了超过90%的EWR。尽管具有潜在优势，目前的VLMs在细粒度食物识别方面仍面临挑战，特别是在区分烹饪风格的细微差别和视觉上相似的食物项目方面，这限制了其用于自动饮食评估的可靠性。FoodNExTDB 数据库可在 https://github.com/AI4Food/FoodNExtDB 公开获取。

发布时间: 4/10/2025

查看原文

CT 对肺部病变负荷的纵向评估

作者: Tejas Sudharshan Mathai, Benjamin Hou, Ronald M. Summers

arXiv:2504.06924v1 交叉公告类型：cross 摘要：在美国，肺癌是第二大死因。及早检测可疑肺结节对于患者的治疗规划、管理和改善预后至关重要。许多肺结节分割和容积分析的方法已经被提出，但很少有人关注总肺肿瘤负担的纵向变化。在本文中，我们训练了两个3D模型（nnUNet）：一个是带有解剖先验的知识，另一个是不带解剖先验的知识，以自动分割肺部病灶并量化每个患者的总病灶负担。没有解剖先验的3D模型在性能上显著优于带有解剖先验的知识的模型（$p < .001$）。对于检测具有临床意义的大于1cm的病灶，实现了71.3%的精准率、68.4%的敏感率以及69.8%的F1分数。在分割方面，获得了77.1 $\pm$ 20.3的Dice分数和11.7 $\pm$ 24.1mm的Hausdorff距离误差。中位数病灶负担为6.4立方厘米（IQR: 2.1, 18.1），手动测量与自动化测量之间的中位数体积差异为0.02立方厘米（IQR: -2.8, 1.2）。还使用线性回归和Bland-Altman图评估了协议一致性。所提出的方法可以为每位患者提供个性化的总肿瘤负担评估，并帮助跟踪随时间的变化。

发布时间: 4/10/2025

查看原文

利用解剖先验实现腹部CT自动胰腺分割

作者: Anisa V. Prasad, Tejas Sudharshan Mathai, Pritam Mukherjee, Jianfei Liu, Ronald M. Summers

arXiv:2504.06921v1 宣告类型: cross 摘要：在CT上对胰腺进行准确分割对于识别胰腺病理和提取基于影像的生物标志物至关重要。然而，先前对胰腺分割的研究主要集中在修改分割模型架构或利用预处理和后处理技术。在本文中，我们探讨了解剖先验在提高胰腺分割性能方面的效用。我们训练了两个全分辨率的3D nnU-Net模型，一个使用了来自公共PANORAMA数据集的8个精炼标签，另一个则将这些标记与来自公共TotalSegmentator (TS)工具的标签结合。解剖先验的添加使得胰腺分割的Dice评分提高了6%（p < .001），海德豪夫距离减少了36.5毫米（p < .001）。此外，使用解剖先验时总能检测到胰腺，而不使用解剖先验则有8次检测失败的实例。使用解剖先验对胰腺分割以及后续提取影像生物标志物显示出良好的前景。

发布时间: 4/10/2025

查看原文

地球观测时间序列中回归任务中时间Dropout的分析

作者: Miro Miranda, Francisco Mena, Andreas Dengel

arXiv:2504.06915v1 交叉类型：公告摘要：时间序列数据中的缺失实例对深度学习模型构成了重大挑战，特别是在回归任务中。在地球观测领域，卫星故障或云层遮挡经常导致时间步骤的缺失，这引入了预测输出的不确定性，并导致预测性能下降。虽然许多研究通过数据增强来提高模型的鲁棒性来解决时间步骤缺失的问题，但在输入级别的不确定性通常被忽视。为了解决这个差距，我们引入了蒙特卡洛时间丢弃（MC-TD）方法，该方法通过在推断过程中使用预定义的丢弃比例随机丢弃时间步骤，从而模拟缺失数据的影响，以显式地考虑到输入级别的不确定性。为了绕过寻找最优丢弃比例的昂贵搜索，我们通过蒙特卡洛混凝土时间丢弃（MC-ConcTD）方法扩展了这一方法，该方法可以直接学习最优的丢弃分布。MC-TD 和 MC-ConcTD 均在推断过程中应用，并利用蒙特卡洛采样进行不确定性量化。在三个地球观测时间序列数据集上的实验表明，MC-ConcTD 与现有方法相比提高了预测性能和不确定性校准。此外，我们还强调了自适应丢弃调优相对于手动选择的优势，使不确定性量化更加稳健和适用于地球观测应用。

发布时间: 4/10/2025

查看原文

MedSegFactory：文本引导的医学图像-掩码对生成

作者: Jiawei Mao, Yuhan Wang, Yucheng Tang, Daguang Xu, Kang Wang, Yang Yang, Zongwei Zhou, Yuyin Zhou

arXiv:2504.06897v1 Announce Type: cross 摘要：本文介绍了MedSegFactory，这是一个多用途的医疗合成框架，能够生成跨模态和任务的高质量配对医疗图像和分割掩码。其目标是作为无限的数据仓库，提供图像-掩码配对以增强现有的分割工具。MedSegFactory的核心是一个双流扩散模型，其中一个流生成医疗图像，另一个流生成相应的分割掩码。为了确保图像-掩码配对的精确对齐，我们引入了联合交叉注意（JCA），通过流之间的动态跨条件化实现协作去噪。这种双向交互使得两种表示可以相互引导生成过程，增强生成配对的一致性。通过用户定义的提示，MedSegFactory可以按需生成配对的医疗图像和分割掩码，这些提示可以指定目标标签、成像模态、解剖区域和病理条件，从而实现可扩展和高质量的数据生成。这一新的医疗图像合成范式能够无缝集成到各种医疗成像流程中，提升效率和准确性。广泛实验表明，MedSegFactory生成的数据质量优异且具有实用性，在2D和3D分割任务中实现了竞争力或最先进的性能，同时还解决了数据稀缺性和监管限制问题。

发布时间: 4/10/2025

查看原文