arXiv 论文列表

PIORF：物理知情的Ollivier-Ricci流网络用于网格图神经网络中的长程交互

作者: Youn-Yeol Yu, Jeongwhan Choi, Jaehyeon Park, Kookjin Lee, Noseong Park

arXiv:2504.04052v1 类型: cross 摘要: 近来，基于图神经网络的数据驱动模拟器在建模非结构化网格上的物理系统方面引起了广泛关注。然而，它们在处理流体流动中的长程依赖性方面遇到了困难，特别是在细化网格区域。这种挑战被称为“过度压缩”问题，阻碍了信息传播。虽然现有的图重连方法在一定程度上解决了这个问题，但它们只考虑了图拓扑，却忽视了潜在的物理现象。我们提出了一种名为物理知情奥利维尔-里奇流（PIORF）的新型重连方法，它将物理相关性与图拓扑相结合。PIORF 使用奥利维尔-里奇曲率（ORC）来识别瓶颈区域，并通过高梯度节点连接这些区域，从而实现长程交互并减轻过度压缩。我们的方法在重连边方面具有计算效率，并且可以扩展到更大的仿真。在3个流体动力学基准数据集上的实验结果显示，PIORF 一贯优于基准模型和现有重连方法，最高可实现26.2倍的改进。

发布时间: 4/8/2025

查看原文

你能数到九吗？现代文本到视频模型计数限制的人工评估基准

作者: Xuyang Guo, Zekai Huang, Jiayan Huo, Yingyu Liang, Zhenmei Shi, Zhao Song, Jiahao Zhang

arXiv:2504.04051v1 类型: cross 摘要: 生成模型在包括文本到视频生成在内的多种AI任务中取得了显著进展，例如Video LDM和Stable Video Diffusion等模型可以从文本指令生成逼真的电影级视频。尽管这些进展显著，但当前的文本到视频模型仍然在可靠地遵循人类命令方面面临着根本性挑战，特别是在遵守简单的数值约束方面。在本文中，我们提出了T2VCountBench，这是一个专门用于评估截至2025年的SOTA文本到视频模型的计数能力的专业基准。我们的基准采用严格的人类评估来测量生成对象的数量，并涵盖了多种不同的生成器，包括开源和商业模型。广泛的实验表明，现有所有模型在基本的数值任务上都存在问题，几乎总是无法生成包含9个或更少对象的视频。此外，我们全面的消融研究探讨了视频风格、时间动态和多语言输入等因素可能如何影响计数性能。我们还研究了提示细化技术，并表明将任务分解为更小的子任务并不能轻易解决这些限制。我们的研究结果突出了当前文本到视频生成中存在的重要挑战，并为未来旨在提高对基本数值约束遵守的研究提供了见解。

发布时间: 4/8/2025

查看原文

病理学基础模型进展与未来方向综述

作者: Conghao Xiong, Hao Chen, Joseph J. Y. Sung

arXiv:2504.04045v1 交叉类型：摘要：计算病理学，通过对整张切片图像的分析进行自动化癌症诊断，依赖于多个实例学习框架，其性能很大程度上取决于特征提取器和聚合器。最近病理学基金会模型（PFMs），基于大规模的组织病理学数据进行预训练，显著增强了提取器和聚合器的能力，但缺乏系统的分析框架。本文综述提出了一种自上而下的层次分类法，组织PFMs，可用于任何领域模型的分析：模型范围、模型预训练和模型设计。此外，我们系统地将PFM评估任务分为切片级、斑块级、多模态和生物任务，并提供了全面的基准标准。我们的分析指出了PFM开发和利用中的关键挑战（病理学特定的方法论、端到端预训练、数据-模型可扩展性）以及如何有效适应和维护模型，从而为这个充满希望的领域指明了未来的方向。本文中引用的资源可在https://github.com/BearCleverProud/AwesomeWSI获取。

发布时间: 4/8/2025

查看原文

持续学习中结构正则化的记忆-统计权衡

作者: Haoran Li, Jingfeng Wu, Vladimir Braverman

arXiv:2504.04039v1 通知类型: 交叉摘要：我们在一个良好规定的随机设计环境中研究了一个包含两个线性回归任务的连续学习问题的统计性能。我们考虑了一种结构正则化算法，该算法结合了一种针对前一任务海森矩阵定制的广义 $\ell_2$ 正则化，以减轻灾难性遗忘。我们为该算法建立了联合超额风险的上界和下界。我们的分析揭示了一个基础的权衡关系，即记忆复杂性和统计效率之间的权衡，记忆复杂性通过定义结构正则化的向量数量来衡量。具体而言，在结构正则化中增加向量的数量会导致更差的记忆复杂性但改善了超额风险，反之亦然。此外，我们的理论表明，没有正则化的简单连续学习会遭受灾难性遗忘，而结构正则化可以缓解这一问题。值得注意的是，结构正则化在有两任务同时访问的情况下，达到了与联合训练相当的性能。这些结果突显了连续学习中曲率感知正则化的重要作用。

发布时间: 4/8/2025

查看原文

自监督学习中复杂数据挖掘的对比与变分方法

作者: Yingbin Liang, Lu Dai, Shuo Shi, Minghao Dai, Junliang Du, Haige Wang

arXiv:2504.04032v1 交叉类型：cross 摘要：复杂数据挖掘在许多领域具有广泛的应用价值，尤其是在未标记数据的特征提取和分类任务中。本文提出了一种基于自监督学习的算法，并通过实验验证了其有效性。研究发现，在优化器和学习率的选择方面，AdamW优化器与0.002学习率的组合在所有评估指标中表现最佳，表明自适应优化方法可以提高复杂数据挖掘任务中模型的性能。此外，消融实验进一步分析了每个模块的贡献。结果显示，对比学习、变分模块和数据增强策略在模型的泛化能力和鲁棒性中起着关键作用。通过损失函数收敛曲线分析，实验验证了在训练过程中方法能够稳定收敛并有效避免严重的过拟合。进一步的实验结果表明，该模型在不同数据集上具有较强的适应性，可以从未标记数据中有效提取高质量特征并提高分类准确性。同时，在不同的数据分布条件下，该方法仍能保持较高的检测准确性，证明了其在复杂数据环境中的适用性。本文通过系统实验分析了自监督学习方法在复杂数据挖掘中的作用，并验证了其在提高特征提取质量、优化分类性能和增强模型稳定性方面的优势。

发布时间: 4/8/2025

查看原文

事件相机中的同时运动和噪声估计

作者: Shintaro Shiba, Yoshimitsu Aoki, Guillermo Gallego

arXiv:2504.04029v1 事件摄像头类型：交叉摘要：事件摄像头是新兴的视觉传感器，其噪声难以表征。现有的事件摄像头去噪方法将其与其他任务（例如，去噪后进行运动估计）分开考虑。然而，运动是事件数据的固有部分，因为无法在没有运动的情况下感知场景边缘。本工作提出了一种，据我们所知，首个同时估计不同形式运动（例如，自我运动、光流）和噪声的方法。该方法具有灵活性，因为它允许用任何其他运动估计器，例如深度神经网络，替换广泛使用的对比度最大化框架中的一步运动估计。实验结果表明，所提出的方法在E-MLB去噪基准上实现了最先进的结果，并在DND21基准上取得了竞争力的结果，同时在运动估计和强度重构任务上显示出其有效性。我们认为，所提出的方法有助于加强事件数据去噪的理论，并对实际去噪应用产生影响，因为我们接受稿件时将发布代码。项目页面：https://github.com/tub-rip/ESMD

发布时间: 4/8/2025

查看原文

重新思考预训练中的反射

作者: Essential AI, :, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski

arXiv:2504.04022v1 交叉类型: cross 摘要：语言模型自我反思其自身推理的能力为其解决复杂问题提供了关键优势。尽管最近的研究主要集中在这种能力在强化学习过程中如何发展，但我们表明，实际上这种能力在模型的预训练阶段就会开始浮现。为了研究这一点，我们在思维链中引入故意的错误，测试模型是否仍然可以通过识别和修正这些错误来得出正确的答案。通过跟踪不同预训练阶段的表现，我们观察到这种自我纠正的能力会早在很早期就出现，并且随着时间的推移不断改善。例如，一个在4万亿个标记上进行预训练的OLMo2-7B模型在我们六个自我反思任务中显示出了自我纠正能力。

发布时间: 4/8/2025

查看原文

时间序列基础模型：一个综述

作者: Siva Rama Krishna Kottapalli, Karthik Hubli, Sandeep Chandrashekhara, Garima Jain, Sunayana Hubli, Gayathri Botla, Ramesh Doddaiah

arXiv:2504.04011v1 交叉类型公告摘要：基于变换器的基模型已成为时间序列分析中的主导范式，提供了前所未有的能力，用于诸如预测、异常检测、分类、趋势分析以及许多其他时间序列分析任务。本文综述提供了基模型最新状态的全面概述，并提出了一个新颖的分类体系，从多个维度对这些模型进行分类。具体来说，我们按架构设计将模型分为两类，一类利用基于补丁的表示，另一类直接操作原始序列。该分类体系进一步区分了模型是否提供概率或确定性预测，以及它们是否设计用于处理单变量时间序列还是可以直接处理多变量时间序列。此外，该分类还包括了模型的规模和复杂度，强调轻量级架构和大规模基模型之间的差异。本文综述的一个独特之处在于，它按训练阶段所使用的客观函数类型对模型进行了分类。通过综合这些视角，本文综述为研究人员和从业者提供了一个资源，揭示了当前的趋势，并指出了未来基于变换器的时间序列建模中值得研究的方向。

发布时间: 4/8/2025

查看原文

边缘逼近文本检测器

作者: Chuang Yang, Xu Han, Tao Han, Han Han, Bingxuan Zhao, Qi Wang

arXiv:2504.04001v1 种类：交叉摘要：追求高效的文本形状表示有助于使场景文本检测模型专注于紧凑的前景区域，并优化轮廓重建步骤，以简化整个检测管道。当前的方法要么通过盒状边界到多边形的策略表示不规则形状，要么逐渐将轮廓分解成片段进行拟合，这些模型中粗略轮廓或复杂管道的问题始终存在。鉴于上述问题，我们引入了EdgeText来紧凑地拟合文本轮廓，从而减轻过多的轮廓重建过程。具体而言，观察到文本的两个长边可以视为平滑曲线。这使得我们能够通过连续和平滑的边缘来构建紧密覆盖文本区域的轮廓，而不是分段拟合，从而避免了当前模型中的两个局限性。受此观察的启发，EdgeText通过参数化曲线拟合函数将文本表示形式表述为边缘近似问题。在推理阶段，我们的模型首先定位文本中心，然后基于点创建曲线函数以逼近文本边缘。同时，根据位置特征确定截断点。最后，通过使用截断点带来的像素坐标信息从曲线函数中提取曲线段，以重建文本轮廓。此外，考虑到EdgeText对文本边缘的深层依赖性，我们设计了一个双边增强感知（BEP）模块。它鼓励模型关注边缘特征的识别。此外，为了加速曲线函数参数的学习，我们引入了比例积分损失（PI-loss），以促使所提出模型专注于曲线分布，避免受文本尺度的干扰。

发布时间: 4/8/2025

查看原文

基于强化学习改进 offline 多Criticality 调度

作者: Muhammad El-Mahdy, Nourhan Sakr, Rodrigo Carrasco

arXiv:2504.03994v1 类型: cross 摘要：本文介绍了一种新的强化学习（RL）方法，用于在具有不同速度的处理器上调度混合关键性（MC）系统。在 [1] 的基础上，我们扩展了他们的工作，以解决非抢占式调度问题，该问题已知是 NP 难问题。通过将这个调度挑战建模为马尔可夫决策过程（MDP），我们开发了一个RL代理，能够为实时MC系统生成接近最优的调度方案。我们的基于RL的调度器优先处理高关键任务，同时保持系统的整体性能。通过广泛的实验，我们展示了我们方法的扩展性和有效性。基于RL的调度器显著提高了任务完成率，在10万个合成数据和实际数据实例下，总体任务完成率为80%，高关键任务完成率为85%。此外，在稳定条件下未出现性能退化的情况下，调度器实现了总体任务完成率为94%，高关键任务完成率为93%。这些结果突显了基于RL的调度器在实时和安全性关键应用中的潜力，提供了处理复杂和动态调度场景的显著改进。

发布时间: 4/8/2025

查看原文