arXiv 论文列表

循环视觉-语言操控器：朝向可靠且细粒度图像解释的自动报告生成努力

作者: Yingying Fang, Zihao Jin, Shaojie Guo, Jinda Liu, Zhiling Yue, Yijian Gao, Junzhi Ning, Zhi Li, Simon Walsh, Guang Yang

arXiv:2411.05261v2 通知类型: 交叉替换摘要：尽管在自动化报告生成方面取得了显著进展，文本可解释性的不透明性仍然对生成内容的可靠性产生质疑。本文介绍了一种新的方法，用于识别影响报告生成模型输出的X射线图像中的特定图像特征。具体而言，我们提出了Cyclic Vision-Language Manipulator (CVLM) 模块，该模块能够从原始X射线及其报告生成一个被操控的X射线，并且该报告由一个指定的报告生成器生成。CVLM的本质在于，将操控后的X射线循环输入报告生成器，生成与提前注入到X射线生成报告中的改动相匹配的报告，实现“循环操控”这一术语。这一过程允许直接对比原始和操控后的X射线，阐明驱动报告变化的关键图像特征，并帮助模型使用者评估生成文本的可靠性。实证评估表明，CVLM能够比现有的解释方法更准确地识别出更可靠的特征，显著增强了AI生成报告的透明度和适用性。

发布时间: 5/8/2025

查看原文

VecCity：一种基于分类学的地图实体表示学习库

作者: Wentao Zhang, Jingyuan Wang, Yifan Yang, Leong Hou U

arXiv:2411.00874v2 文本类型：替换交叉摘要：电子地图包含多样化的实体，如兴趣点（POIs）、道路网络和土地地块，这些实体在ITS和LBS等应用中起着至关重要的作用。地图实体表示学习（MapRL）生成多样的且可重用的数据表示，提供了高效管理和利用地图实体数据的基本工具。尽管MapRL取得了进展，但其进一步发展的两个关键挑战仍然存在。首先，现有的研究是碎片化的，模型按地图实体类型分类，限制了不同任务之间技术的可重用性。其次，缺乏统一的基准使系统评估和比较模型变得困难。为了解决这些挑战，我们提出了一种新的MapRL分类法，根据功能模块——如编码器、预训练任务和下游任务——而不是实体类型来组织模型。基于这一分类法，我们展示了一个基于分类法的库VecCity，它提供易于使用的接口来编码、预训练、微调和评估。该库集成了九个城市的数据集，并复现了21种主流MapRL模型，建立了该领域的第一个标准化基准。VecCity还允许用户通过模块化组件修改和扩展模型，从而使无缝实验变得可能。我们全面的实验涵盖了多种地图实体类型，并评估了21个VecCity预构建模型在各种下游任务中的表现。实验结果展示了VecCity在简化模型开发方面的有效性，并提供了各种组件对性能影响的见解。通过促进模块化设计和重用，VecCity提供了一个统一的框架来推动MapRL领域的研究和创新。代码可以在 https://github.com/Bigscity-VecCity/VecCity 获取。

发布时间: 5/8/2025

查看原文

ASURA-FDPS-ML：基于代理模型加速的星际星系模拟反馈超新星作用

作者: Keiya Hirashima, Kana Moriwaki, Michiko S. Fujii, Yutaka Hirai, Takayuki R. Saitoh, Junnichiro Makino, Ulrich P. Steinwandel, Shirley Ho

arXiv:2410.23346v2 宣告类型: replace-cross 摘要: 我们介绍了一种使用代理模型加速的新高分辨率星系模拟，该代理模型将计算成本降低了大约75%。质量约为10个太阳质量以上的零年龄主序恒星在核心塌缩超新星(CCSNe)中爆炸，这对星系的形成起着关键作用。CCSNe释放的能量对于调节恒星形成和驱动星际介质(ISM)中的反馈过程至关重要。然而，用于SNe反馈所需的时间步长较短，这在不同尺度的天体物理模拟中构成了重大瓶颈。克服这一挑战对于实现单星到单星的星系模拟至关重要，后者旨在捕捉单个恒星的动力学和湍流ISM中不均匀壳层的扩张。为了解决这一问题，我们的新框架结合了直接数值模拟和代理建模，包括机器学习和吉布斯采样。星系的恒星形成历史和流出率的时间演变与分辨率良好的直接数值模拟结果匹配。我们的新方法在保持高分辨率的同时降低了计算成本，有效地弥合了物理尺度差距，使得多尺度模拟成为可能。

发布时间: 5/8/2025

查看原文

时空图神经网络模型的系统文献综述：时间序列预测与分类

作者: Flavio Corradini, Flavio Gerosa, Marco Gori, Carlo Lucheroni, Marco Piangerelli, Martina Zannotti

arXiv:2410.22377v2 宣告类型: replace-cross 摘要：近年来，时空图神经网络（GNNs）因其能够捕捉变量间以及时间点之间的依赖关系，在时间序列分析领域引起了广泛关注。本文综述的主要目标是提供时空GNN在时间序列分类和预测中各方面建模方法和应用领域的全面概述。通过数据库检索，选出了超过150篇期刊论文，用于详细评估该领域的当前现状。这项评估旨在为读者提供一个全面的模型集合，包括相关源代码的链接、可用的数据集、基准模型和拟合结果。期望这些信息能够帮助未来的研究人员。据我们所知，这是首次系统地进行文献综述，详细比较了不同领域当前时空GNN模型的结果。此外，综述的最后部分讨论了时空GNN应用中存在的当前限制和挑战，包括可比性、可重现性、解释性、信息容量不足和可扩展性等问题。

发布时间: 5/8/2025

查看原文

DeMuVGN：通过图神经网络学习多视图软件依赖的有效软件缺陷预测模型

作者: Yu Qiao, Lina Gong, Yu Zhao, Yongwei Wang, Mingqiang Wei

arXiv:2410.19550v2 宣布类型: 替换-交叉摘要: 软件缺陷预测（SDP）旨在识别软件开发中的高风险缺陷模块，优化资源分配。虽然先前的研究表明依赖网络度量可以提高缺陷预测的准确性，但大多数方法关注的是基于代码的依赖图，忽视了开发人员因素。现有的基于手工构造特征（如自我和全局网络度量）的指标未能充分捕捉缺陷相关的信息。为了解决这个问题，我们提出了一种名为DeMuVGN的缺陷预测模型，通过图神经网络学习多视角软件依赖关系。我们引入了一个多视角软件依赖图（MSDG），该图综合了数据、调用和开发人员依赖关系。DeMuVGN还利用合成少数类过采样技术（SMOTE）来解决类别不平衡问题，增强缺陷模块的识别能力。在对20个版本的8个开放源代码项目进行案例研究中，DeMuVGN展示了显著的改进：i）基于多视角图的模型在F1分数上比单视角模型提高了11.1%到12.1%；ii）DeMuVGN在项目内部上下文中的F1分数提高了17.4%到45.8%，在跨项目上下文中提高了17.9%到41.0%。此外，DeMuVGN在软件演化方面表现出色，对后期软件版本的改进更为显著。其在不同项目上的强大表现突显了其泛化能力。我们建议未来的研究将多视角依赖图应用于成熟和新开发项目的缺陷预测。

发布时间: 5/8/2025

查看原文

HM-DF SNN: 超越传统在线学习的高级训练与部署

作者: Zecheng Hao, Yifan Huang, Zijie Xu, Wenxuan Liu, Yuanhong Tang, Zhaofei Yu, Tiejun Huang

arXiv:2410.07547v2 更新类型: replace-cross 摘要：脉冲神经网络（SNNs）被认为由于其仿脑性和能效性，在未来的人工智能发展中具有巨大的潜力。与传统的时空反向传播（STBP）训练方法相比，在线训练可以有效克服GPU内存爆炸的风险。然而，当前的在线学习框架无法解决时间依赖梯度的不可分问题，并仅仅旨在优化训练内存，导致在推理阶段性能不及STBP训练模型。为了解决上述挑战，我们提出了混合机制驱动放电（HM-DF）模型，这是一个采用不同脉冲计算方案的高级模型；在放电阈值的上下区域分别采用了不同的放电策略。我们指出，HM-DF模型可以有效分离时间梯度、解决近似梯度的不匹配问题，并在计算速度和内存占用方面实现全过程优化。实验结果表明，HM-DF模型可以灵活结合各种技术，在在线学习领域实现尖端性能，而不引发进一步的能耗。

发布时间: 5/8/2025

查看原文

超导序与密度之间非线性相互作用的相图：基于数据的 holographic 超导体研究

作者: Sejin Kim, Kyung Kiu Kim, Yunseok Seo

arXiv:2410.06523v2 逆问题类型: 替换-交叉摘要: 我们解决了一种关于全息超导体建模的逆问题。我们集中在实验中显示的临界温度行为上。我们利用物理学启发式的神经网络方法找到一个质量函数 \(M(F^2)\)，这对于理解相变行为是必要的。该质量函数描述了超导有序和载流子密度之间的非线性相互作用。我们引入了位置嵌入层以改进算法中的学习过程，并使用Adam优化来通过全息计算预测适当的临界温度数据。引入位置嵌入层的动机源自于人工智能（AI）领域的自然语言处理的变换器模型。我们获得了能够重现实际数据提供的正常态和超导态边界的全息模型。我们的工作是首次尝试通过实验定量获得的相变数据进行全息匹配。此外，本工作为基于数据的全息模型提供了一种新的方法论。

发布时间: 5/8/2025

查看原文

基于扩散模型的多机器人运动规划

作者: Yorai Shaoul, Itamar Mishani, Shivam Vats, Jiaoyang Li, Maxim Likhachev

arXiv:2410.03072v2 宣布类型: replace-cross 摘要：扩散模型最近成功应用于从数据中学习复杂多模态行为的广泛机器人应用中。然而，由于学习多机器人扩散模型所需的高样本复杂性，以前的工作大多局限于单个机器人和小型环境中。本文中，我们提出了一种方法，在仅使用单机器人数据的情况下，生成符合潜在数据分布且无碰撞的多机器人轨迹。我们的算法，多机器人多模型规划扩散（MMD），通过将学习的扩散模型与经典基于搜索的技术结合，即在碰撞约束下生成数据驱动的运动，实现了这一目标。进一步扩展，我们展示了如何组合多个扩散模型以在单个扩散模型无法很好地泛化的大型环境中进行规划。我们展示了该方法在多种由物流环境启发的模拟场景中规划数十个机器人的有效性。查看视频演示和代码，请访问：https://multi-robot-diffusion.github.io/。

发布时间: 5/8/2025

查看原文

问答密集视频事件

作者: Hangyu Qin, Junbin Xiao, Angela Yao

arXiv:2409.04388v4 任务类型: replace-cross 摘要：本文提出了一种密集视频事件问答的新任务，该任务旨在回答和在长视频中确定密集事件问题，从而挑战大规模语言模型（MLLMs）在长时间段内准确理解和推理多个事件的能力。为了促进对该任务的研究，我们构建了DeVE-QA数据集，该数据集包含10.6K段长视频中的26K个事件的78K个问题。我们的基准测试表明，最先进的大规模语言模型在DeVE-QA上存在困难。为改进这一问题，我们提出了一种名为DeVi的新颖的无训练方法，该方法强调了一个层次化的图像生成模块、一个时间事件记忆模块和一个自我一致性检查模块，分别用于检测、上下文化和记忆长视频中的密集事件，以回答相关问题。广泛实验表明，DeVi在回答密集事件问题和定位相关视频时刻方面表现优异。与现有大规模语言模型相比，它在DeVE-QA和NExT-GQA上的G(round)QA精度分别提高了4.8%和2.1%。我们的数据和代码将在接受后发布。

发布时间: 5/8/2025

查看原文

深度神经网络元学习损失函数

作者: Christian Raymond

arXiv:2406.09713v3 公布类型: 替换-交叉摘要：人类常常能够在仅有少量示例的情况下快速而高效地解决复杂的全新学习任务。相比之下，现代的人工智能系统通常需要成千上万甚至数百万的数据观察才能解决最基础的任务。元学习旨在通过利用类似学习任务中的过往经验来嵌入适当的归纳偏见，从而解决这一问题。历史上，对于元学习组件如优化器、参数初始化等方面的改进已经带来了显著的性能提升。本论文旨在通过往往被忽视的损失函数组件，探索元学习的概念以提高性能。损失函数是学习系统中的关键组件，因为它代表了主要的学习目标，系统的成功以及其优化能力将通过系统能够成功优化这个目标来进行衡量和量化。

发布时间: 5/8/2025

查看原文