arXiv 论文列表

利用静态关系进行 intra-type 和 inter-type 消息传递以进行视频问答

作者: Lili Liang, Guanglu Sun

arXiv:2504.02417v1 宣告类型: cross 摘要：视频问答（VideoQA）是人工智能领域的重要研究方向，使机器能够理解视频内容，并基于自然语言问题进行推理和回答。尽管基于静态关系推理的方法取得了一定的进展，但在静态关系识别和表示的准确性上仍然存在不足，未能充分利用视频中的静态关系信息进行深层次的推理和分析。因此，本文提出了基于静态关系的同类型和异类型的推理方法。该方法构建了一种针对同类型消息传递推理的双重图，并基于静态关系构建了一种异构图，用于异类型的推理消息传递。同类型消息传递推理模型捕获了双重图中与问题相关的目标及其关系的邻域信息，更新双重图以获得同类型线索来回答问题。异类型消息传递推理模型捕获了异构图中与问题相关的不同类别目标及其关系的邻域信息，更新异构图以获得异类型线索来回答问题。最后，基于静态关系的同类型和异类型线索，推断出答案。在ANetQA和Next-QA数据集上的实验结果证明了该方法的有效性。

发布时间: 4/4/2025

查看原文

使用人工智能将胎儿脑超声图像转换为伪MRI图像

作者: Naomi Silverstein, Efrat Leibowitz, Ron Beloosesky, Haim Azhari

arXiv:2504.02408v1 类别: cross 摘要：超声波是一种广泛可用且成本效益高的医学成像工具，常用于胎儿脑部的产前评估。然而，在第三孕期，由于胎儿脑部的复杂性，需要高质量的图像来提取定量数据，这存在一定的局限性。相比之下，磁共振成像（MRI）提供了更好的图像质量和组织区分能力，但设备获取较为困难、成本较高且成像耗时较长。因此，将超声图像转换为类似MRI的显示方式可能更具优势，并能更好地呈现组织解剖结构。为实现这一目标，我们探讨了人工智能的应用，并采用了一种以生成高质量图像闻名的扩散模型。提出的算法称为“双重扩散强制相关性”（DDIC），利用了一种基于扩散的转换方法，假设超声和MRI领域之间存在共享的潜在空间。模型训练使用了“HC18”超声数据集、“CRL胎儿大脑图谱”以及“FeTA”数据集的MRI部分。生成的假彩色MRI图像在视觉区分脑组织方面有了显著的改进，特别是在侧脑室和 Sylvian 裂隙处，对比度清晰度得到了增强。在互信息、峰值信噪比、福彻特盛入距离和对比度噪声比方面都表现出了改进。这些评估结果表明，DDIC 方法在与其他转换方法相比时表现出统计上显著的优势。此外，我们还从5名妇产科医生那里获得了医学意见测试结果。结果显示，在被测试的图像中有81%的显示有所改进。总之，呈现的假彩色MRI图像有可能通过改进表示方式来简化诊断并增强临床结果。

发布时间: 4/4/2025

查看原文

基于事件的空间-时间建模的非接触 sound 恢复：EvMic

作者: Hao Yin, Shi Guo, Xu Jia, Xudong XU, Lu Zhang, Si Liu, Dong Wang, Huchuan Lu, Tianfan Xue

arXiv:2504.02402v1 Announce Type: 交叉摘要：当声波撞击物体时，它们会引发振动，产生高频和微妙的视觉变化，这些变化可以用于恢复声波。早期的研究总是面临与采样率、带宽、视野和光学路径的简洁性相关的权衡问题。近期事件相机硬件的进步显示了其在视觉声波恢复中的良好应用潜力，因为它的高频信号捕捉能力优越。然而，现有的基于事件的振动恢复方法仍然不适合声波恢复。在本文中，我们提出了一种新的非接触声波恢复流水线，充分利用事件流中的时空信息。我们首先使用一种新的模拟流水线生成大规模的训练集。然后，我们设计了一个网络，利用事件的稀疏性来捕捉空间信息，并使用Mamba来建模长期时间信息。最后，我们训练了一个空间聚合块，以从不同位置聚集信息，以进一步提高信号质量。为了捕捉由声波引起的事件信号，我们还设计了一个使用激光阵列增强梯度的成像系统，并收集了多个数据序列进行测试。在合成和真实世界数据上的实验结果证明了我们方法的有效性。

发布时间: 4/4/2025

查看原文

带有量子退火的Steiner旅行商问题

作者: Alessia Ciacco, Francesca Guerriero, Eneko Osaba

arXiv:2504.02388v1 宣告类型: cross 摘要：Steiner 旅行商问题（STSP）是经典旅行商问题的一种变体。STSP 包括引入 Steiner 节点，这些节点不是原本需要访问集的一部分，但可以在路径中添加以优化总体解决方案并最小化总旅行成本。鉴于 STSP 的 NP 难问题性质，我们提出了一种量子方法来解决它。具体而言，我们使用 D-Wave 的硬件进行量子退火，以探索其解决此问题的潜力。为了增强计算可行性，我们开发了一种有效的预处理方法来减少网络规模。我们的实验结果表明，这种方法显著减少了问题的复杂性，使得 Quadratic Unconstrained Binary Optimization（QUBO）建模，这是量子退火器的标准输入格式，更适合当前的量子硬件。此外，结果突显了量子退火作为解决 STSP 的有希望和创新的方法的潜力。

发布时间: 4/4/2025

查看原文

基于CT和X射线的骨盆骨折分割技术基准：PENGWIN 2024 挑战赛总结

作者: Yudi Sang, Yanzhen Liu, Sutuke Yibulayimu, Yunning Wang, Benjamin D. Killeen, Mingxu Liu, Ping-Cheng Ku, Ole Johannsen, Karol Gotkowski, Maximilian Zenk, Klaus Maier-Hein, Fabian Isensee, Peiyan Yue, Yi Wang, Haidong Yu, Zhaohong Pan, Yutong He, Xiaokun Liang, Daiqi Liu, Fuxin Fan, Artur Jurgas, Andrzej Skalski, Yuxi Ma, Jing Yang, Szymon P{\l}otka, Rafa{\l} Litka, Gang Zhu, Yingchun Song, Mathias Unberath, Mehran Armand, Dan Ruan, S. Kevin Zhou, Qiyong Cao, Chunpeng Zhao, Xinbao Wu, Yu Wang

arXiv:2504.02382v1 分割类型: 横跨摘要：盆骨骨折碎片在CT和X射线图像中的分割对于创伤诊断、手术规划以及术中指导至关重要。然而，由于复杂的解剖结构和成像限制，准确且高效地描绘骨折碎片仍是一个重大挑战。组织该活动的PENGWIN挑战赛作为MICCAI 2024卫星活动，旨在通过在这些复杂任务上基准评测最新的算法，推动自动骨折分割技术的发展。从多个临床中心收集了150个CT扫描数据集，并使用DeepDRR方法生成了大量的模拟X射线图像。来自全球的16支队伍的最终提交结果在严格的多指标测试方案下进行了评估。最佳的CT算法在平均片段交并比（IoU）上达到了0.930，展示了其良好的准确性。然而，在X射线任务中，最佳算法的IoU仅为0.774，突显了重叠解剖结构带来的更大挑战。除了定量评估外，该挑战还揭示了算法设计中的方法学多样性。实例表示方式的差异，如主次分类与边界核心分离，导致了不同的分割策略。尽管取得了有希望的结果，该挑战也暴露了骨折片段定义中存在的固有不确定性，尤其是在骨折不完整的情况下更为明显。这些发现表明，结合人类决策与任务相关信息的交互式分割方法可能对于提高模型可靠性和临床应用至关重要。

发布时间: 4/4/2025

查看原文

通过蒸馏聚集大型视觉编码器以进行VFSS分割

作者: Chengxi Zeng, Yuxuan Jiang, Fan Zhang, Alberto Gambaruto, Tilo Burghardt

arXiv:2504.02351v1 类型: cross 摘要：基础模型在医学成像领域的部署已经取得了显著的成功。然而，由于所使用图像编码器的规模庞大，与下游任务相关的训练开销依然相当大，且推理复杂度也非常高。尽管已经得到了这些基础模型的轻量级变体，但它们的表现受限于其有限的模型容量和非最优的训练策略。为了在复杂性和性能之间实现更好的权衡，我们提出了一种新的框架，通过从多个大型医学基础模型（例如 MedSAM、RAD-DINO、MedCLIP）中进行知识蒸馏，这些模型各自擅长不同的视觉任务，旨在有效弥合医学图像分割任务中的性能差距。结合的模型在12项分割任务上展示了出色的泛化能力，而专业化模型需要为每个任务进行明确的训练。我们的方法在Dice系数方面相对于简单蒸馏实现了平均2%的性能提升。

发布时间: 4/4/2025

查看原文

基于时间的高斯copula临床多变量时间序列数据插补

作者: Ye Su, Hezhe Qiao, Di Wu, Yuwen Chen, Lin Chen

arXiv:2504.02317v1 类型: cross 摘要：多变量时间序列（MTS）插补特别具有挑战性，因为MTS通常由于各种因素，如仪器故障、无关数据的干扰和隐私规定，包含了不规则的缺失值模式。现有的统计方法和深度学习方法在时间序列插补方面已经展示了有希望的结果。在本文中，我们提出了一种用于三阶MTS插补的Temporal Gaussian Copula Model（TGC）。核心思想是利用Gaussian Copula在潜在的Gaussian表示基础上探索跨变量和时序关系。随后，我们采用期望最大化（EM）算法来提高在管理不同缺失率数据时的鲁棒性。我们在三个真实世界的MTS数据集中进行了全面的实验。结果表明，我们的TGC显著优于当前最先进的插补方法。此外，TGC模型在测试数据集中的不同缺失率变化方面表现出更强的鲁棒性。我们的代码库可在https://github.com/MVL-Lab/TGC-MTS获取。

发布时间: 4/4/2025

查看原文

ConsDreamer: 提升零样本文本到3D生成的多视图一致性

作者: Yuan Zhou, Shilong Jin, Litao Hua, Wanjun Lv, Haoran Duan, Jungong Han

arXiv:2504.02316v1 宣告类型: cross 摘要: 零样本文本到3D生成最近的技术进步已经彻底改变了3D内容的创建，使直接从文本描述合成成为可能。虽然最先进的方法通过预训练的文本到图像(T2I)模型利用3D Gaussian Splatting和得分蒸馏增强多视角渲染，但在T2I先验中固有的视角偏见导致了不一致的3D生成，特别是在多面Janus问题中具体表现出来，即物体在不同视角中表现出冲突的特征。为了应对这一根本性挑战，我们提出了一种名为ConsDreamer的新框架，该框架通过在得分蒸馏过程中精炼条件和无条件项来减轻视角偏见：(1) 视点解耦模块(VDM)，通过解耦无关的视角组件并注入精确的相机参数来消除条件提示中的视角偏见；(2) 基于相似性的部分顺序损失，通过使余弦相似度与方位关系对齐来强制无条件项中保持几何一致性。大量实验表明，ConsDreamer在文本到3D生成中有效缓解了多面Janus问题，无论是在视觉质量上还是在一致性上都优于现有方法。

发布时间: 4/4/2025

查看原文

OmniCam：通过相机控制实现统一多模态视频生成

作者: Xiaoda Yang, Jiayang Xu, Kaixuan Luan, Xinyu Zhan, Hongshun Qiu, Shijun Shi, Hao Li, Shuai Yang, Li Zhang, Checheng Yu, Cewu Lu, Lixin Yang

arXiv:2504.02312v1 Announce Type: 横向摘要：相机控制通过改变相机位置和姿态实现多样的视觉效果，已引起了广泛关注。然而，现有方法面临复杂的交互和有限的控制能力等问题。为了解决这些问题，我们提出了OmniCam，一个统一的多模态相机控制框架。借助大型语言模型和视频扩散模型，OmniCam 生成时空一致的视频。它支持各种输入模态的组合：用户可以提供文本或视频作为相机路径指导，以及图像或视频作为内容参考，从而精确控制相机运动。为了便于训练OmniCam，我们引入了OmniTr数据集，其中包括大量高质量的长序列轨迹、视频及其相应的描述。实验结果表明，我们的模型在各种指标上实现了高质量相机控制视频生成的最先进性能。

发布时间: 4/4/2025

查看原文

使用 mBART 进行文本到手写词帖翻译的最新成果：孟加拉语案例研究

作者: Sharif Md. Abdullah, Abhijit Paul, Shebuti Rayana, Ahmedul Kabir, Zarif Masud

arXiv:2504.02293v1 交叉公告类型摘要：尽管有170万聋哑人，但孟加拉手语（BdSL）仍然是一个研究不足的领域。具体来说，尚无关于孟加拉语文本到手语词典翻译任务的相关研究。为了解决这一缺口，我们首先解决了数据集问题。我们从德国和美国手语（ASL）的基于语法规则的手语词典生成方法中汲取灵感，并将其适配于BdSL。我们还利用大模型（LLM）生成合成数据，并使用反向翻译和文本生成进行数据增强。准备好数据集后，我们开始了实验。我们对预训练的mBART-50和mBERT-multiclass-uncased模型进行了微调。我们还训练了GRU、RNN以及一种具有多头注意力机制的新颖序列到序列模型。我们观察到，使用来自脸书的预训练mBART-50多语言模型进行微调时，获得了显著的高性能（ScareBLEU=79.53）。然后，我们探讨了为什么mBART能表现出如此高的性能。很快，我们注意到mBART的一个有趣特性——它是在被打乱和掩码的文本数据上进行训练的。我们知道，手语形式具有信息打乱的特性。因此，我们假设mBART本质上擅长文本到手语词典的任务。为了验证这一假设，我们在PHOENIX-14T基准上对mBART-50进行了训练，并用现有文献进行了评估。我们的mBART-50微调在PHOENIX-14T基准上展示了最先进的性能，在所有六个指标上远超现有模型（ScareBLEU = 63.89，BLEU-1 = 55.14，BLEU-2 = 38.07，BLEU-3 = 27.13，BLEU-4 = 20.68，COMET = 0.624）。基于这些结果，本研究提出了使用mBART模型的新范式来解决文本到手语词典任务。此外，我们的结果显示，基于规则的合成数据集对BdSL的文本到手语词典任务有显著的改进作用。

发布时间: 4/4/2025

查看原文