arXiv 论文列表

作者: Wei Huang, Shumeng Sun, Junpeng Lu, Zhenpeng Xu, Zhengyang Xiu, Hao Zhang

arXiv:2504.13102v1 类型:跨领域摘要：水下声学目标识别（UATR）对于保护海洋生物多样性和国家安全具有重要意义。深度学习的发展为UATR提供了新的机遇，但也面临着参考样本稀缺和复杂环境干扰所带来的挑战。为了解决这些问题，我们提出了一种多任务平衡通道注意卷积神经网络（MT-BCA-CNN）。该方法结合了通道注意机制和多任务学习策略，构建了一个共享特征提取器和多任务分类器，共同优化目标分类和特征重构任务。通道注意机制动态增强了具有谐波结构的鉴别性声学特征，同时抑制了噪声。实验结果表明，在威特金海洋生物数据库中的27类少样本场景下，MT-BCA-CNN 实现了97%的分类准确率和95%的F1分数，显著优于传统的CNN和ACNN模型，以及流行的UATR方法。消融研究证实了多任务学习和注意力机制的协同效果，而动态权重调整策略有效地平衡了任务贡献。本研究为水下声学识别提供了一种有效的解决方案，促进了海洋生物声学和声纳信号处理领域的研究。

发布时间: 4/18/2025

查看原文

基于经验的可识别性理论将加速自我监督学习研究

作者: Patrik Reizinger, Randall Balestriero, David Klindt, Wieland Brendel

arXiv:2504.13101v1 类型: cross 摘要：自我监督学习（SSL）推动了许多当前的AI系统。随着研究兴趣和投资的增长，SSL的设计空间不断扩展。遵循柏拉图代表假说（PRH）的柏拉图视角（Platonic view）表明，尽管采用不同的方法和工程手段，所有表示最终会收敛到同一个柏拉图理想。然而，这一现象缺乏精确的理论解释。通过综合一致可分性理论（IT）的证据，我们展示了PRH可以在SSL中出现。然而，当前的IT无法解释SSL的经验成功。为了弥合理论与实践之间的差距，我们提出了扩展IT的观点，称之为单一可分性理论（SITh），这是一种更广泛的理论框架，涵盖了整个SSL流程。SITh将允许对SSL中的隐式数据假设进行更深入的理解，并推动该领域朝着学习更具解释性和泛化性的表示方向发展。我们指出了未来研究中的三个关键方向：1）SSL的训练动力学和收敛性质；2）有限样本、批量大小和数据多样性的影响；3）归纳偏见在架构、增强、初始化方案和优化器中的作用。

发布时间: 4/18/2025

查看原文

带有冲突证据的检索增强生成

作者: Han Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal

arXiv:2504.13079v1 宣告类型: cross 摘要: 大型语言模型（LLM）代理越来越多地采用检索增强生成（RAG）来提高其响应的准确性。然而，在实践中，这些系统在处理含糊不清的用户查询和来自多个来源的潜在冲突信息时，也需要抑制来自噪声或无关文档的不准确信息。先前的工作通常分别孤立地研究和解决这些问题，每次只考虑一个方面，例如处理含糊性或对噪声和虚假信息的鲁棒性。相反，我们同时考虑了多个因素，提出了(i) RAMDocs（含糊信息和虚假信息的文档检索），这是一个新数据集，模拟了用户查询复杂且现实的场景，包括含糊性、虚假信息和噪声；以及(ii) MADAM-RAG，这是一种多代理方法，其中LLM代理在多轮中辩论答案的优点，允许聚合器将与消除了虚假信息和噪声的实体对应的响应汇总起来，从而同时处理多种冲突来源。我们使用闭源和开源模型在AmbigDocs上展示了MADAM-RAG的有效性——AmbigDocs要求呈现所有有效答案以应对含糊查询——相比强大的RAG基准提高了多达11.40%；在FaithEval上——FaithEval要求抑制虚假信息——我们使用Llama3.3-70B-Instruct提高了多达15.80%（绝对值）。此外，我们发现RAMDocs对现有RAG基准构成了挑战（仅Llama3.3-70B-Instruct获得32.60分的完全匹配分数）。虽然MADAM-RAG开始解决这些冲突因素，但我们的分析表明，尤其是在增加支持证据和虚假信息的不平衡程度时，仍存在显著差距。

发布时间: 4/18/2025

查看原文

提升基于多服装虚拟试脱的 PERSON TO PERSON 虚拟试穿

作者: Riza Velioglu, Petra Bevandic, Robin Chan, Barbara Hammer

arXiv:2504.13078v1 宣布类型: 交叉摘要：计算机视觉正在通过虚拟试穿（VTON）和虚拟脱衣（VTOFF）改变时尚。VTON通过目标照片和标准服装图像生成戴有指定服装的人的图像，而更具挑战性的变体，人对人虚拟试穿（p2p-VTON），则使用另一人穿着该服装的照片。另一方面，VTOFF从穿着服装的人身上提取标准服装图像。我们引入了TryOffDiff，一种基于扩散的VTOFF模型。该模型建立在具有SigLIP图像条件的潜在扩散框架之上，能够有效地捕获服装的纹理、形状和图案等属性。TryOffDiff在VITON-HD上取得了最先进的结果，并在DressCode数据集上表现出色，覆盖上身、下身和连衣裙。通过特定类别的嵌入增强，它开创了多件服装VTOFF，这是第一个此类方法。当与VTON模型结合使用时，它可以通过最小化不必要的属性转移，如肤色，来提高p2p-VTON的效果。代码可在以下链接获取：https://rizavelioglu.github.io/tryoffdiff/

发布时间: 4/18/2025

查看原文

准确率并不等于一致同意：基于专家对齐的碰撞叙述分类模型评估

作者: Sudesh Ramesh Bhagat, Ibne Farabi Shihab, Anuj Sharma

arXiv:2504.13068v1 宣告类型: cross 摘要: 本研究探讨了深度学习（DL）模型在事故叙述分类中的准确性和专家一致性的关系。我们评估了五种DL模型——包括BERT变体、通用句子编码器（USE）和零样本分类器——与专家标注数据以及叙述文本的对比结果。进一步地，将分析扩展到了四个人工智能语言模型（LLMs）：GPT-4、LLaMA 3、Qwen和Claude。我们的结果显示一种反直觉的趋势：准确性较高的模型往往与领域专家的意见一致性较低，而人工智能语言模型尽管准确率相对较低，却表现出更接近专家的一致性。为了量化和解释模型与专家的一致性，我们运用了Cohen's Kappa、主成分分析（PCA）以及基于SHAP的可解释性技术。结果表明，与专家一致的模型更倾向于依赖上下文和时间语言线索，而不是具体位置的关键词。这些结果强调，仅凭准确率对于评估安全关键的自然语言处理（NLP）应用中的模型是不够的。我们提倡在模型评估框架中引入专家一致性作为补充指标，并指出了LLMs作为可解释且可扩展的工具用于事故分析流程的前景。

发布时间: 4/18/2025

查看原文

RoboTwin: 双臂机器人基准与生成型数字孪生benchmark

作者: Yao Mu, Tianxing Chen, Zanxin Chen, Shijia Peng, Zhiqian Lan, Zeyu Gao, Zhixuan Liang, Qiaojun Yu, Yude Zou, Mingkun Xu, Lunkai Lin, Zhiqiang Xie, Mingyu Ding, Ping Luo

arXiv:2504.13059v1 Announce Type: 跨领域摘要：在迅速发展的机器人领域，双臂协调和复杂物体操作是开发先进自主系统的关键能力。然而，高质量的多样化示范数据的稀缺和与真实世界对齐的评价基准严重限制了这种发展。为了应对这一挑战，我们提出了一种生成型数字孪生框架RoboTwin，该框架利用3D生成基础模型和大型语言模型来生成多样化的专家数据集，并提供与真实世界对齐的双臂机器人任务评价平台。具体而言，RoboTwin 从单张二维图像创建了各种各样的数字孪生物体，生成了现实且互动的场景。它还引入了一种空间关系意识的代码生成框架，该框架结合了物体标注和大型语言模型来分解任务、确定空间约束，并生成精确的机器人动作代码。我们的框架提供了一个包括模拟和真实世界数据的综合基准，使得标准化评价和模拟训练与真实世界性能之间的对齐成为可能。我们使用开源的COBOT Magic Robot平台验证了我们的方法。在RoboTwin生成的数据上预训练并在少量真实世界样本上微调的策略展示了显著的潜力，通过在单臂任务中提高70%以上、双臂任务中提高40%以上的成功率，证明了与仅使用真实世界数据训练的模型相比，增强双臂机器人操作系统的可能性。

发布时间: 4/18/2025

查看原文

基于自_aspect_检索增强生成的方面级总结

作者: Yichao Feng, Shuai Zhao, Yueqiu Li, Luwei Xiao, Xiaobao Wu, Anh Tuan Luu

arXiv:2504.13054v1 声明类型: cross 摘要：基于方面总结的目标是对特定方面生成总结，以解决传统总结方法中存在的资源限制和泛化能力有限的问题。近年来，大型语言模型在这方面显示出潜力，无需进行训练即可实现这一目标。然而，它们过度依赖于提示工程，并面临标记限制和幻觉挑战，尤其是在上下文学习方面。为了解决这些挑战，本文提出了一种新的基于方面的总结框架：自方面检索增强总结生成。我们的框架不仅不完全依赖于上下文学习，在给定一个方面的情况下，我们采用基于嵌入的检索机制来识别其相关的文本片段。这种方法提取相关的内容，避免不必要的细节，从而减轻了标记限制的挑战。此外，我们的框架通过删除文本中与方面无关的部分来优化标记使用，并确保模型严格基于给定的方面生成输出。通过对基准数据集进行广泛实验，我们证明，我们的框架不仅在性能上表现优异，还有效解决了标记限制问题。

发布时间: 4/18/2025

查看原文

通过强化微调生成模型设计拓扑材料

作者: Haosheng Xu, Dongheng Qian, Zhixuan Liu, Yadong Jiang, Jing Wang

arXiv:2504.13048v1 宣传类型: 横跨摘要: 独特电子性质的拓扑绝缘体（TIs）和拓扑晶体绝缘体（TCIs）是对于实际应用具有极高价值的材料。然而，这类材料特别是带有全带隙的材料仍然相对稀缺。鉴于传统方法筛选已知材料候选人的局限性，我们集中在通过生成模型生成新的拓扑材料上。具体来说，我们对预训练的生成模型应用强化微调（ReFT），从而将模型的目标与我们的材料设计目标对齐。我们证明了ReFT在增强模型生成TIs和TCIs的能力方面是有效的，同时最大限度地减少了对生成材料稳定性的妥协。使用微调后的模型，我们成功地识别出大量的新拓扑材料，其中Ge$_2$Bi$_2$O$_6$是一个代表性的例子——它是一种具有0.26 eV全带隙的TIs，是此类中已知的最大值之一。

发布时间: 4/18/2025

查看原文

事件增强模糊视频超分辨率

作者: Dachun Kai, Yueyi Zhang, Jin Wang, Zeyu Xiao, Zhiwei Xiong, Xiaoyan Sun

arXiv:2504.13042v1 宣告类型: 交叉摘要: 在本文中，我们解决了blurry视频超分辨率(BVSR)的任务，旨在从低分辨率(LR)和模糊输入中生成高分辨率(HR)视频。当前的BVSR方法往往在高分辨率下无法恢复清晰细节，这导致了明显的失真和抖动，原因是去卷积过程中缺乏足够的运动信息以及LR帧中缺乏高频细节。为了解决这些问题，我们引入了事件信号到BVSR，并提出了一种新颖的事件增强网络，Ev-DeblurVSR。为了有效融合帧间信息和事件信息以进行特征去模糊，我们引入了一种互惠特征去模糊模块，该模块利用帧内事件的运动信息去模糊帧特征，同时利用帧的全局场景上下文增强事件特征。此外，为了增强时间一致性，我们提出了一种混合可变形对齐模块，该模块充分利用了帧间事件和光流之间的互补运动信息，以改善可变形对齐过程中的运动估计。广泛的评估表明，Ev-DeblurVSR在合成和真实世界数据集上建立了新的性能基准。特别地，在真实数据上，与最近的最佳BVSR基线FMA-Net相比，我们的方法在准确度上高出2.59 dB，并且速度快7.28倍。代码: https://github.com/DachunKai/Ev-DeblurVSR。

发布时间: 4/18/2025

查看原文

面向心脏MRI基础模型：全面的视觉-表格表示以实现全心脏评估及更多功能

作者: Yundi Zhang, Paul Hager, Che Liu, Suprosanna Shit, Chen Chen, Daniel Rueckert, Jiazhen Pan

arXiv:2504.13037v1 Announce Type: cross 摘要：心脏磁共振成像是无创心脏评估的金标准，提供了丰富的时空心脏解剖和生理视图。患者的健康因素，如人口统计学、代谢和生活方式，已知会对心血管健康和疾病风险产生显著影响，但目前这些因素仅凭CMR无法捕捉。为了全面了解心脏健康并能够对个体疾病风险进行最佳解读，必须在集成框架中同时利用CMR和患者级别的因素。近期的多模态方法已经开始弥合这一差距，但它们通常依赖于有限的时空数据，并集中于孤立的临床任务，从而阻碍了心脏健康评估全面表示的发展。为了克服这些限制，我们引入了ViTa，这是一条通向基础模型的道路，它提供了一个全面的心脏表示和个体疾病风险的精确解读。利用英国生物银行42,000名参与者的数据，ViTa结合了短轴和长轴视图的3D+T心脏流动堆栈，使心脏周期的完整捕捉成为可能。然后将这些影像数据与详细的患者级别因素相结合，实现上下文感知的洞察。这种多模态范式支持一系列下游任务，包括心脏表型和生理特征的预测、心脏和代谢疾病的分割和分类，这一切都在一个统一的框架内进行。通过对丰富的影像特征和患者上下文进行学习，ViTa超越了传统的特定任务模型，朝向一种普遍的、针对患者的心脏健康理解，突显了其在心脏分析中的潜在临床效用和可扩展性。

发布时间: 4/18/2025

查看原文