arXiv 论文列表

作者: Kai Jeggle, Mikolaj Czerkawski, Federico Serva, Bertrand Le Saux, David Neubauer, Ulrike Lohmann

IceCloudNet 是一种基于机器学习的新方法，能够预测高质量的垂直解析云冰水含量 (IWC) 和冰晶数浓度 (N$_\textrm{ice}$) 。预测结果的空间和时间覆盖范围以及分辨率与静止卫星观测 (SEVIRI) 相同，而垂直分辨率与主动卫星反演 (DARDAR) 相同。IceCloudNet 由一个基于 ConvNeXt 的 U-Net 和一个 3D PatchGAN 鉴别器模型组成，通过预测来自共同定位 SEVIRI 图像的 DARDAR 剖面来训练。尽管由于其狭窄的过境带，DARDAR 数据的可用性稀疏，但 IceCloudNet 能够以高精度预测云的发生、空间结构和微物理特性。该模型已应用于十年的 SEVIRI 数据，生成一个包含冰的云的垂直解析 IWC 和 N$_\textrm{ice}$ 数据集，其空间分辨率为 3 kmx3 kmx240 mx15 分钟，空间范围为 30{\deg}W 至 30{\deg}E 和 30{\deg}S 至 30{\deg}N。生成的该数据集将 DARDAR 可用期间的垂直云剖面可用性提高了六个数量级以上，此外，IceCloudNet 能够生成超出 DARDAR 所基于的最近结束的卫星任务寿命的垂直云剖面。

发布时间: 10/8/2024

查看原文

从医院到便携设备：基于1000万份多样化心电图记录构建的通用心电图基础模型

作者: Jun Li, Aaron Aguirre, Junior Moura, Che Liu, Lanhai Zhong, Chenxi Sun, Gari Clifford, Brandon Westover, Shenda Hong

人工智能（AI）在心电图（ECG）分析和心血管疾病检测方面展现出巨大潜力。然而，由于个体差异和心电图诊断的多样性，开发通用的 AI-ECG 模型一直面临挑战，这限制了现有模型在特定诊断任务和数据集中的应用。此外，目前的 AI-ECG 模型在单导联和 12 导联心电图之间难以实现相当的性能，限制了 AI-ECG 在便携式和可穿戴心电图设备中的应用。为了解决这些限制，我们引入了心电图基础模型（ECGFounder），这是一个通用模型，它利用来自心脏病学专家的真实世界心电图注释来扩展心电图分析的诊断能力。ECGFounder 在超过 1000 万份来自哈佛-埃默里心电图数据库的心电图上进行训练，这些心电图包含 150 个标签类别，从而能够通过心电图分析进行全面的心血管疾病诊断。该模型旨在既能有效地开箱即用，又能针对下游任务进行微调，从而最大限度地提高可用性。更重要的是，我们将它的应用扩展到单导联心电图，能够进行复杂情况诊断，并在移动和远程监测场景中支持各种下游任务。实验结果表明，ECGFounder 在内部验证集中对 12 导联和单导联心电图都取得了专家级性能，同时在外部验证集中也展现出强大的分类性能和跨诊断的泛化能力。当进行微调时，ECGFounder 在人口统计学检测、临床事件检测和跨模态心律诊断方面优于基线模型。训练后的模型和数据将在发表后通过 bdsp.io 公开发布。我们的代码可在 https://github.com/bdsp-core/ECGFounder 获取。

发布时间: 10/8/2024

查看原文

黎曼和优化用于精确的积分梯度计算

作者: Swadesh Swain, Shree Singhi

集成梯度 (IG) 是一种广泛用于将深度神经网络的输出归因于其输入特征的算法。由于深度学习模型没有闭式积分，因此使用不准确的黎曼和近似来计算 IG。这通常会导致高噪声水平形式的不期望的误差，从而导致对模型决策过程的错误理解。我们引入了一个框架 RiemannOpt，它通过优化黎曼和的样本点选择来最小化这些误差。我们的算法高度通用，适用于 IG 及其衍生品，如 Blur IG 和 Guided IG。RiemannOpt 在插入分数方面实现了高达 20% 的改进。此外，它使用户能够将计算成本缩减多达四倍，从而使其在受限环境中具有很高的功能性。

发布时间: 10/8/2024

查看原文

基于传输嵌入的神经网络架构：重新定义流体力学中物理感知神经模型的格局

作者: Amirmahdi Jafari

本研究提出了一种新的神经模型，该模型在设计上遵循输运方程。我们以双周期域上定义的物理问题——泰勒-格林涡旋为例，评估了标准物理信息神经网络和我们的模型（嵌入输运的神经网络）的性能。结果表明，虽然标准物理信息神经网络无法准确预测解，并且在整个时间跨度内仅返回初始条件，但我们的模型成功地捕捉了物理的时变变化，特别是在高雷诺数流的情况下。此外，我们的模型防止出现伪最小值的能力可以为解决更易出现伪最小值的多分支物理问题铺平道路，并帮助它们准确预测复杂的物理现象。

发布时间: 10/8/2024

查看原文

基于占用率近似的策略梯度算法在一般效用强化学习中的样本复杂度研究

作者: Anas Barakat, Souradip Chakraborty, Peihong Yu, Pratap Tokekar, Amrit Singh Bedi

近年来，具有通用效用的强化学习因其能够统一多个问题（包括模仿学习、纯探索和安全强化学习）而备受关注。然而，先前在统一方式解决此通用问题的工作主要集中在表格环境中。考虑到更大的状态-动作空间，这是一种限制，因为在策略优化过程中需要估计占用度量。在本工作中，我们解决了这个问题，并提出使用最大似然估计（MLE）在函数逼近类中近似占用度量。我们提出了一种简单的策略梯度算法（PG-OMA），其中一个演员更新策略参数以最大化通用效用目标，而一个评论家使用 MLE 近似占用度量。我们提供了 PG-OMA 的样本复杂度分析，表明我们的占用度量估计误差仅随函数逼近类的维度缩放，而不是状态动作空间的大小。在适当的假设下，我们分别为非凹和凹通用效用建立了所提出的 PG-OMA 算法的一阶平稳性和全局最优性能边界。我们用有希望的实验结果补充了我们的方法论和理论发现，这些结果表明了与现有的基于表格计数的方法相比，我们方法的可扩展性潜力。

发布时间: 10/8/2024

查看原文

OCON 模型：一种古老但绿色的分布式监督分类解决方案，用于智慧城市声学监测

作者: Stefano Giacomelli, Marco Giordano, Claudia Rinaldi

本文探讨了在监督分类任务中应用一类方法和一类一网络模型的结构化方法，重点关注自动语音识别 (ASR) 领域的元音音素分类和说话人识别。针对我们的案例研究，ASR 模型运行在一个专有的传感和照明系统上，用于监控城市街道上的声学和空气污染。我们使用一种知情的网格搜索方法，将伪神经架构搜索和超参数调整实验相结合，以实现与当今最复杂架构相当的分类精度，深入研究了说话人识别和能源效率方面。尽管模型简单，但我们的模型提议在计算受限的环境中具有很强的泛化语言和说话人性别背景的能力，这在相关统计数据和性能指标中得到了证明。我们的实验代码在 GitHub 上公开提供。

发布时间: 10/8/2024

查看原文

辛柯尔莫哥洛夫-阿诺德网络及其在物理信息神经网络中的应用

作者: Tianchi Yu, Jingwei Qiu, Jiang Yang, Ivan Oseledets

本文提出在 Kolmogorov-Arnold 网络（具有可学习激活函数的神经网络）中使用 Sinc 插值。近年来，Kolmogorov-Arnold 网络作为多层感知器的替代方案而受到关注。许多不同的函数表示方法已经被尝试过，但我们表明 Sinc 插值提供了一种可行的替代方案，因为它在数值分析中被认为能够很好地表示平滑函数和奇异函数。这不仅对函数逼近很重要，而且对使用物理信息神经网络求解偏微分方程也很重要。通过一系列实验，我们表明 SincKANs 在我们考虑的几乎所有示例中都提供了更好的结果。

发布时间: 10/8/2024

查看原文

GlobeSumm：一个面向多语言、跨语言和多文档新闻摘要的挑战性基准

作者: Yangfan Ye, Xiachong Feng, Xiaocheng Feng, Weitao Ma, Libo Qin, Dongliang Xu, Qing Yang, Hongtao Liu, Bing Qin

在当今全球化的背景下，新闻摘要面临着来自不同来源的多语言内容和各种观点的泛滥，这使得新闻摘要任务变得十分艰巨。然而，现有的研究往往忽略了这种现实场景，而倾向于只关注单语言或单文档任务。为了弥合这一差距，我们旨在将多语言、跨语言和多文档摘要统一到一个新的任务中，即 MCMS，该任务将现实世界中的所有需求整合到一起。然而，缺乏基准阻碍了研究人员充分研究这一宝贵问题。为了解决这一问题，我们精心构建了 GLOBESUMM 数据集，首先收集了大量多语言新闻报道，并将它们重组为以事件为中心的格式。此外，我们引入了协议引导提示方法，以实现高质量且经济高效的参考标注。在 MCMS 中，我们还强调了新闻报道之间冲突的挑战，除了冗余和遗漏问题之外，进一步提高了 GLOBESUMM 的复杂性。通过广泛的实验分析，我们验证了数据集的质量，并阐明了该任务的内在挑战。我们坚信，GLOBESUMM 凭借其具有挑战性的特性，将极大地促进多语言社区和大型语言模型的评估。

发布时间: 10/8/2024

查看原文

驯服长尾：利用非对称损失和帕德逼近克服医学图像长尾类不平衡问题

作者: Pankhi Kashyap, Pavni Tandon, Sunny Gupta, Abhishek Tiwari, Ritwik Kulkarni, Kshitij Sharad Jadhav

医疗保健中的长尾问题源于数据不平衡，这是由于不同医疗状况的患病率和代表性的差异造成的，因此需要精确可靠的分类方法。传统的损失函数，如交叉熵和二元交叉熵，由于无法解决医疗图像数据集中高代表性类别和低代表性类别之间的不平衡问题，因此往往不足。我们提出了一种基于 Pade 近似的全新多项式损失函数，专门用于克服长尾分类带来的挑战。这种方法结合了非对称采样技术，可以更好地对代表性不足的类别进行分类。我们在三个公开可用的医疗数据集和一个专有医疗数据集上进行了广泛的评估。我们提出的损失函数的实现已在公共仓库中开源：https://github.com/ipankhi/ALPA。

发布时间: 10/8/2024

查看原文

ε-VAE：去噪作为视觉解码

作者: Long Zhao, Sanghyun Woo, Ziyu Wan, Yandong Li, Han Zhang, Boqing Gong, Hartwig Adam, Xuhui Jia, Ting Liu

在生成式模型中，分词将复杂数据简化为紧凑的结构化表示，创造了一个更高效、更易学习的空间。对于高维视觉数据，它减少了冗余并强调了关键特征，从而实现高质量的生成。现有的视觉分词方法依赖于传统的自动编码器框架，其中编码器将数据压缩为潜在表示，解码器重建原始输入。在这项工作中，我们提出了一种新的视角，将去噪视为解码，从单步重建转变为迭代细化。具体来说，我们将解码器替换为一个扩散过程，该过程在编码器提供的潜在表示的引导下，迭代地细化噪声以恢复原始图像。我们通过评估重建 (rFID) 和生成质量 (FID) 来评估我们的方法，并将其与最先进的自动编码方法进行比较。我们希望这项工作能够为整合迭代生成和自动编码提供新的见解，从而改善压缩和生成。

发布时间: 10/8/2024

查看原文