arXiv 论文列表

作者: Haorui Chen, Zeyu Ren, Jiaxuan Ren, Ran Ran, Jinliang Shao, Jie Huang, Liangjian Deng

arXiv:2505.06576v1 交叉类型: 研究论文摘要：近年来，通过深度学习方法，超分辨率融合已经取得了快速的进步，展示了令人印象深刻的融合质量。然而，获取真实的高分辨率图像的挑战限制了这些方法的实际应用性。为了解决这一问题，我们提出了一种两阶段随机交替框架（TRA-PAN），有效地将降分辨率图像的强监督约束与全分辨率图像的物理特性进行了整合。在第一阶段，引入了一种预训练程序，其中包括降级意识建模（DAM），用于捕获空间光谱降级映射，同时还设计了一个预热程序来减少训练时间并缓解降分辨率数据的负面影响。在第二阶段，采用了随机交替优化（RAO），其中随机交替训练利用了降分辨率和全分辨率图像的优点，进一步优化了融合模型。通过主要依赖于全分辨率图像，我们的方法允许在仅使用一幅图像对的情况下进行零样本训练，从而避免了对大型数据集的需求。实验结果表明，在定量指标和实际场景中的视觉质量方面，TRA-PAN均优于现有最佳方法（SOTA），突显了其强大的实际应用性。

发布时间: 5/13/2025

查看原文

MacRAG: 压缩、切片并放大以实现多尺度自适应上下文RAG

作者: Woosang Lim, Zekun Li, Gyuwan Kim, Sungyoung Ji, HyeonJung Kim, Kyuri Choi, Jin Hyuk Lim, Kyungpyo Park, William Yang Wang

arXiv:2505.06569v1 交叉通知类型摘要：长上下文（LC）大规模语言模型（LLMs）与检索增强生成（RAG）组合，在复杂多跳和大规模文档任务中具有很强的潜力。然而，现有的RAG系统经常面临检索不精确、在受限上下文窗口中上下文覆盖不完整以及由于次优上下文构建导致的信息碎片化等问题。我们引入了多尺度自适应上下文RAG（MacRAG），这是一种分层检索框架，将文档压缩和分区为从粗到细的不同粒度，然后通过文档级和分块级的实时扩展，自适应地合并相关上下文。通过从最精细的检索开始，并逐步引入更高层次和更广泛的上下文，MacRAG 构建了有效的查询特定长上下文，优化了精确度和覆盖范围。在具有挑战性的LongBench对HotpotQA、2WikiMultihopQA和Musique的扩展评估中，MacRAG 在单步和多步生成中始终超越了基于Llama-3.1-8B、Gemini-1.5-pro和GPT-4o的基本RAG流水线。我们的结果确立了MacRAG作为一个高效的、可扩展的解决现实世界长上下文、多跳推理问题的方案。我们的代码可在https://github.com/Leezekun/MacRAG上获取。

发布时间: 5/13/2025

查看原文

基于反向 Curriculum Learning 的四足机器人滑板安装

作者: Danil Belov, Artem Erkhov, Elizaveta Pestova, Ilya Osokin, Dzmitry Tsetserukou, Pavel Osinenko

arXiv:2505.06561v1 宣告类型: cross 摘要: 本文的目的是利用逆序课程强化学习使四足机器人能够登上滑板。虽然先前的工作已经证明了四足机器人已经定位在滑板上时可以滑行，但初始上滑板阶段仍然存在重大挑战。采用了一种目标导向的方法，从任务的终端阶段开始，逐步增加问题定义的复杂性，以接近所需的目标。学习过程从将滑板牢固固定在全局坐标框架内，并将机器人直接定位在其上方开始。通过逐渐放宽这些初始条件，学习到的策略展示了对滑板位置和方向变化的稳健性，最终在涉及移动滑板的场景中表现出成功的转移。源代码、训练模型和可再现的示例可在以下链接获取: https://github.com/dancher00/quadruped-skateboard-mounting

发布时间: 5/13/2025

查看原文

dcFCI：在潜在混杂因素、不忠实性和混合数据下的稳健因果发现

作者: Ad\`ele H. Ribeiro, Dominik Heider

arXiv:2505.06542v1 交叉类型公告摘要：因果发现是通过观察数据推断因果关系的核心。在存在潜在混杂变量的情况下，如快速因果推理（FCI）算法会学习一个部分祖先图（PAG），表示真实的模型的马尔可夫等价类。然而，它们的正确性高度依赖于经验忠实性的假设，即观察到的（不）独立性完美地反映了底层因果模型中的那些独立性，而在实践中，由于样本量有限，这一假设往往无法成立。为了解决这一问题，我们提出了第一个非参数评分方法，以评估PAG与观察到的数据的兼容性，即使在混合变量类型的情况下也是如此。这个评分方法既是必要条件也是充分条件，能够表征结构不确定性并区分不同的PAG。接着，我们提出了数据兼容FCI（dcFCI），这是第一个联合处理潜在混杂变量、经验不忠实性和混合数据类型的混合因果发现算法。dcFCI将我们的评分方法融入了一个由（任何时间）FCI引导的搜索过程，该过程系统地探索、排名和验证候选的PAG。在合成数据和实际场景的实验中，dcFCI在性能上显著优于现有最先进的方法，甚至在小型和异质数据集下也能恢复真正的PAG。进一步分析排名靠前的PAG为结构不确定性提供了有价值的见解，支持更为稳健和明智的因果推理和决策。

发布时间: 5/13/2025

查看原文

ProFashion：基于原型的多参考圖像时尚视频生成

作者: Xianghao Kong, Qiaosong Qi, Yuanbin Wang, Anyi Rao, Biaolong Chen, Aixi Zhang, Si Liu, Hao Jiang

arXiv:2505.06537v1 Announce Type: cross 摘要：时尚视频生成的目标是从指定角色的参考图像中合成时间上一致的视频。尽管取得了显著进展，现有的基于扩散的方法仅支持单个参考图像作为输入，这严重限制了它们生成视角一致的时尚视频的能力，尤其是在衣服从不同角度有不同的图案时。此外，广泛采用的运动模块未能充分建模人体动作，导致时空一致性不够优化。为了解决这些问题，我们提出了ProFashion，这是一种利用多个参考图像的时尚视频生成框架，以实现更好的视角一致性和时间连贯性。为了有效地利用多个参考图像的特征并维持合理的计算成本，我们设计了一种姿态感知原型聚合器，该聚合器根据姿态信息选择和聚合全局和细粒度的参考特征，从而形成帧级原型，作为去噪过程中的指导。为了进一步增强动作一致性，我们引入了一种流增强原型实例化器，该实例化器利用人体关键点的运动流来引导去噪器中的额外时空注意力过程。为了证明ProFashion的有效性，我们对从互联网收集的MRFashion-7K数据集进行了广泛的评估。ProFashion在UBC Fashion数据集上也优于先前的方法。

发布时间: 5/13/2025

查看原文

基于Transformer的自适应跨模态融合网络：多模态情感识别

作者: Feng Liu, Ziwang Fu, Yunlong Wang, Qijian Zheng

arXiv:2505.06536v1 公告类型: cross 摘要：融合技术是多模态情感识别任务的关键。近年来，基于跨模态注意的融合方法展示了高性能和强健健壮性。然而，跨模态注意会遇到冗余特征的问题，并且不能很好地捕捉互补特征。我们发现，在跨模态交互过程中，不需要使用另一种模态的全部信息来强化另一种模态，可以强化另一模态的特征可能仅包含该模态的一部分。为此，我们设计了一种创新的基于Transformer的自适应跨模态融合网络(TACFN)。具体来说，对于冗余特征，我们让一种模态通过自注意力机制执行本模态的特征选择，以便所选特征能够适应性且高效地与另一种模态交互。为了更好地捕捉模态之间的互补信息，我们通过拼接获得融合权重向量，并通过权重向量实现在模态中的特征增强。我们将TACFN应用于RAVDESS和IEMOCAP数据集。为了公平比较，我们使用相同的单模态表示来验证所提融合方法的有效性。实验结果表明，与其它方法相比，TACFN带来了显著的性能提升，并达到了最先进的水平。所有代码和模型可以从 https://github.com/shuzihuaiyu/TACFN 访问。

发布时间: 5/13/2025

查看原文

改进医学图像配准基础模型的泛化能力

作者: Jing Hu, Kaiwei Yu, Hongjiang Xian, Shu Hu, Xin Wang

arXiv:2505.06527v1 类型:跨领域摘要:可变形配准是医学图像处理中的一个基本任务，旨在通过建立图像之间的非线性对应关系实现精确对齐。传统方法具有良好的适应性和可解释性，但受限于计算效率。尽管深度学习方法在提高配准速度和准确性方面取得了显著进步，但在不同数据集和任务上的灵活性和通用性方面仍然不足。近年来，基础模型作为一种有前途的方向出现，利用大型和多样化的数据集学习图像配准的通用特征和变换模式，从而展示了强大的跨任务迁移能力。然而，这些模型在面对新颖的解剖结构、变化的成像条件或未见的模态时，仍然存在泛化能力和鲁棒性方面的问题。为了解决这些局限性，本文将Sharpness-Aware Minimization (SAM)融入基础模型，以增强其在医学图像配准中的泛化能力和鲁棒性。通过优化损失景观的平坦性，SAM改进了模型在多样化数据分布下的稳定性，并增强了其处理复杂临床场景的能力。实验结果表明，集成SAM的基础模型在跨数据集配准性能上取得了显著改进，为医学图像配准技术的进步提供了新的见解。我们的代码可从https://github.com/Promise13/fm_sam{https://github.com/Promise13/fm_sam获取。

发布时间: 5/13/2025

查看原文

PRUNE：一种基于 patching 的修复框架，用于神经网络的可验证忘记

作者: Xuran Li, Jingyi Wang, Xiaohan Yuan, Peixin Zhang, Zhan Qin, Zhibo Wang, Kui Ren

arXiv:2505.06520v1 Announce Type: cross 摘要：从训练好的神经网络模型中移除（即遗忘）特定部分的训练数据往往是有益的。一个典型的应用场景是为了保护数据持有者的被遗忘权，这已经被许多最近的法规推广。现有的遗忘方法通常涉及使用剩余数据训练替代模型，这从数据持有者或第三方审计师的角度来看可能会很昂贵且难以验证。在本文中，我们提供了一个新的视角，并提出了一种新的遗忘方法，通过在原始神经网络上施加精心设计的“补丁”来实现对要求删除的数据的有针对性的“遗忘”。具体来说，受到神经网络修复研究线的启发，我们提出了一种战略性的方法，以有可验证保证的方式为给定的数据点寻找一个轻量级的最小“补丁”进行遗忘。此外，为了遗忘大量的数据点（或整个类别），我们提出了一种迭代选择少量代表性数据点进行遗忘的方法，从而实现整个集合的遗忘效果。在多个类别数据集上的广泛实验表明了我们方法的有效性，实现了可测量的遗忘效果同时保持模型的性能，并且在效率和内存消耗方面与各种基线方法具有竞争力。

发布时间: 5/13/2025

查看原文

动态系统中的注意力机制：以捕食者-猎物模型为例

作者: David Balaban

arXiv:2505.06503v1 Announce Type: 跨领域摘要：注意力机制在人工智能中广泛用于提高性能和可解释性。本文探讨了其在建模经典动力学系统中的应用——具体来说，是一个有噪声的捕食者-猎物系统（Lotka-Volterra系统）。我们训练一个简单的线性注意力模型，利用扰动时间序列数据来重构系统的轨迹。令人惊讶的是，学习到的注意力权重与李雅普un夫函数的几何结构对齐：高注意力对应平坦区域（扰动效应很小），而低注意力对应陡峭区域（扰动效应很大）。我们进一步证明，基于注意力的加权可以作为敏感性分析的代理，无需明确了解系统方程即可捕获关键相空间属性。这些结果表明，人工智能导出的注意力机制具有新颖的应用前景，可用于非线性系统的可解释、数据驱动的分析与控制。例如，我们的框架可以支持未来在生物节律建模中的工作，以及动态环境中可解释的机器学习。

发布时间: 5/13/2025

查看原文

xGen-small 技术报告

作者: Erik Nijkamp, Bo Pang, Egor Pakhomov, Akash Gokul, Jin Qu, Silvio Savarese, Yingbo Zhou, Caiming Xiong

arXiv:2505.06496v1 宣布类型：交叉摘要: 我们介绍了xGen-small，这是一种专门为长上下文应用优化的4B和9B Transformer解码器模型家族。我们的垂直集成流水线将领域平衡、频率感知的数据整理；多阶段预训练，具备质量退火和长度扩展至128k个标记；以及通过监督微调、偏好学习和在线强化学习的目标后训练相结合。xGen-small在各种任务中表现出色，特别是在数学和编码领域，同时在长上下文基准测试中表现出色。

发布时间: 5/13/2025

查看原文