arXiv 论文列表

作者: Jin Lian, Zhongyu Wan, Ming Gao, JunFeng Chen

arXiv:2504.01326v1 公布类型: cross 摘要: 多尺度特征融合和显著目标检测中边界细节保留方面，跨层特征金字塔网络（CFPNs）取得了显著进展。然而，传统的CFPNs仍然存在两个核心限制：（1）由复杂特征加权操作引起的计算瓶颈，（2）在上采样过程中特征模糊导致的边界准确性下降。为了解决这些问题，我们提出了一种新的跨层特征金字塔网络CFMD，引入了两个关键创新。首先，我们设计了一种上下文感知特征聚合模块（CFLMA），该模块结合了最新技术的Mamba架构来构建动态权重分配机制。该模块根据图像上下文自适应调整特征的重要性，显著提高了表示效率和泛化能力。其次，我们引入了一种适应性动态上采样单元（CFLMD），在分辨率恢复过程中保留空间细节。通过动态调整上采样范围并使用双线性策略初始化，该模块有效地减少了特征重叠并保持了细粒度的边界结构。在三个标准基准上使用三种主流骨干网络进行广泛实验表明，CFMD在像素级准确性、边界分割质量和复杂场景中的表现有了显著提升。实验结果验证了CFMD在共同提升计算效率和分割性能方面的有效性，突显了其在显著目标检测任务中的强大潜力。

发布时间: 4/3/2025

查看原文

关于数据合成与视觉抽象推理的后训练技术

作者: Ke Zhu, Yu Wang, Jiangjiang Liu, Qunyi Xie, Shanshan Liu, Gang Zhang

arXiv:2504.01324v1 宣告类型：交叉摘要：本文是一项开创性工作，旨在解决大型视觉-语言模型（VLMs）的抽象视觉推理（AVR）问题。我们使一个通用的LLaVA-NeXT 7B模型能够感知和推理特定的AVR问题，并超过了开源（如Qwen-2-VL-72B）和闭源的强大VLMs（如GPT-4o）的显著差距。这对于几乎所有的前VLMs在代表性AVR基准上失败或显示出几乎随机的表现而言，是一个巨大的突破。我们的关键成功在于我们创新的数据合成和后训练过程，旨在彻底缓解任务难度并逐步引导模型学习。我们的7B模型也显示了在AVR方面表现出色，而不牺牲常见的多模态理解能力。我们希望本文能在这一领域起到早期努力的作用，并激发进一步的抽象视觉推理研究。

发布时间: 4/3/2025

查看原文

COST: 对比-OneStage 转换器用于视觉-语言小对象跟踪

作者: Chunhui Zhang, Li Liu, Jialin Gao, Xin Sun, Hao Wen, Xi Zhou, Shiming Ge, Yanfeng Wang

arXiv:2504.01321v1 宣告类型：交叉摘要：最近，Transformer 在提高视觉-语言（VL）跟踪算法方面展现出了巨大潜力。然而，大多数现有的VL跟踪器依赖于精心设计的机制来执行多阶段多模态融合。此外，直接进行多模态融合而不进行对齐可能会忽略特征空间中模态之间的分布差异，导致不理想的表示。在这项工作中，我们提出了一种名为COST的对比度单一阶段Transformer融合框架，旨在学习语义一致且统一的VL表示。具体而言，我们引入了一种对比度对齐策略，该策略最大化了视频与其对应语言描述之间的互信息（MI）。这使得有效的跨模态对齐得以实现，在表示空间中生成语义一致的特征。通过利用视觉-语言Transformer，我们建立了一种高效的多模态融合和推理机制，实验表明简单的Transformer编码器堆栈能够有效地生成统一的VL表示。此外，我们贡献了一个新收集的小物体跟踪VL跟踪基准数据集，命名为VL-SOT500，其中包括边界框和语言描述。该数据集包含两个具有挑战性的子集，VL-SOT230和VL-SOT270，分别用于评估通用的小物体跟踪和高速小物体跟踪。由于小物体跟踪具有弱外观和有限特征的特性，因此一直是个棘手的问题，而我们的数据集据我们所知，是首个探索利用语言线索以增强视觉表示的小物体跟踪数据集。广泛的实验表明，COST在五个现有的VL跟踪数据集及我们提出的VL-SOT500数据集上均实现了最先进的性能。源代码和数据集将公开提供。

发布时间: 4/3/2025

查看原文

测试时计算缩放的自适应整流采样

作者: Zhendong Tan, Xingjun Zhang, Chaoyi Hu, Yancheng Pan, Shaoxun Wang

arXiv:2504.01317v1 宣告类型: cross 摘要: 新发布的OpenAI-o1和DeepSeek-R1展示了测试时缩放可以显著提高模型性能，尤其是在逻辑推理等复杂任务中。常见的测试时缩放方法包括生成更多的思考链(CoTs)或更长的思考链，并进行自我修正。然而，尽管自我修正可以提高性能，但如果推理步骤已经正确，则可能会导致显著的标记浪费并降低思考链的可读性。为了证明大型语言模型(LLMs)可以在更精细的级别上修正错误，我们提出了适应性校正采样(AR-Sampling)，它可以引导LLMs在适当的步骤进行自我修正。AR-Sampling利用了一个过程监督的奖励模型(PRM)作为验证器，并构建了触发句子来引导模型在适应性步骤级别的重新思考。通过在GSM8K和MATH500上的实验，表明我们的方法使模型能够在更精细的级别上重新思考，提高了解决方案的准确性，同时生成合理的额外标记数量。

发布时间: 4/3/2025

查看原文

基于局部知识图的多层级总结 biomedical 问答

作者: Lingxiao Guan, Yuanhao Huang, Jie Liu

arXiv:2504.01309v1 公告类型: cross 摘要：在问答（QA）领域，检索增强生成（RAG）已经 revolutionized 各个领域的性能。然而，如何有效地捕获多文档关系，尤其是在生物医学任务中尤为关键，仍然存在一个开放性问题。在本文中，我们提出了一种新的方法，该方法利用命题声明从检索到的文档中构建局部知识图谱。然后，通过层次总结从知识图谱中派生出摘要，以此将小型语言模型上下文化以执行问答任务。我们在几个生物医学问答基准上实现了与RAG基线相当或更优的性能。我们还针对特定的评估指标评估了我们方法论的每个步骤，展示了其有效性。

发布时间: 4/3/2025

查看原文

基于KV缓存和解码的策略优化动态检索增强生成的测试时推理缩放方法

作者: Sakhinana Sagar Srinivas, Venkataramana Runkana

arXiv:2504.01281v1 通告类型: cross 摘要: 我们提出了一种全面的框架，通过动态检索策略和强化微调来增强检索增强生成（RAG）系统。这种方法在包括开放域问答和复杂推理在内的知识密集型任务上显著提高了大型语言模型的效果。我们的框架结合了两种互补的技术：策略优化检索增强生成（PORAG），该技术优化了检索信息的使用，以及自适应标记层注意力得分（ATLAS），该技术根据上下文需求动态确定检索时机和内容。这些技术共同提高了检索内容的利用和相关性，从而提高了事实准确性并提升了响应质量。作为轻量级解决方案，我们的框架可以在不需额外训练的情况下与任何基于Transformer的大型语言模型兼容，该框架在知识密集型任务中表现出色，提高了RAG设置下的输出准确率。我们还提出了CRITIC，这是一种新颖的方法，通过标记的重要程度选择性地压缩关键值缓存，以缓解长上下文应用中的内存瓶颈。该框架还结合了测试时缩放技术，动态平衡推理深度和计算资源，并采用优化的解码策略以实现更快的推理。在基准数据集上的实验表明，我们的框架减少了幻觉现象，加强了领域特定的推理，并在传统的RAG系统上实现了显著的效率和可扩展性改进。这种集成方法推进了稳健、高效和可扩展的RAG系统在各种应用中的发展。

发布时间: 4/3/2025

查看原文

使用大型语言模型自动进行车载对话系统的事实基准测试

作者: Rafael Giebisch, Ken E. Friedl, Lev Sorokin, Andrea Stocco

arXiv:2504.01248v1 类型:交叉摘要：车内对话系统带来了改善车内用户体验的潜力。现代对话系统基于大型语言模型（LLMs），这使得它们容易出现幻觉，即不准确、虚构的、因此事实错误的信息。在本文中，我们提出了一种基于LLM的方法论，用于自动对车内对话系统进行事实基准测试。我们利用集成技术及多样的角色实例化了我们的方法论，以提高一致性并减少幻觉。我们使用该方法论对CarExpert进行评价，CarExpert是一个基于检索增强对话的问答系统，针对汽车手册的准确性进行评价。我们为此车内领域创建了一个新颖的数据集，并将我们的方法论与专家评估进行了对比测试。我们的结果表明，将GPT-4与输入输出提示结合起来，实现了超过90%的一致性事实正确性，除了高效的响应时间仅为4.5s。我们的发现表明，基于LLM的测试对于验证对话系统关于其事实正确性是一个可行的方法。

发布时间: 4/3/2025

查看原文

基于突触神经网络学习多元点过程的动态图形结构估计

作者: Biswadeep Chakraborty, Hemant Kumawat, Beomseok Kang, Saibal Mukhopadhyay

arXiv:2504.01246v1 交叉公告类型：新论文摘要：在神经科学、流行病学、金融和社会科学等领域，建模和预测时间点过程（TPPs）至关重要。我们引入了一种名为Spiking动态图网络（SDGN）的新颖框架，该框架利用了脉冲神经网络（SNNs）和依赖时间的突触可塑性（STDP）的时间处理能力，动态估计潜在的空间-时间功能图。与依赖预定义或静态图结构的现有方法不同，SDGN可以通过从事件数据中直接学习动态的空间-时间依赖关系来适应任何数据集，从而增强其通用性和鲁棒性。虽然SDGN相对于先前的方法提供了显著的改进，但我们承认它在处理密集图和某些非高斯依赖关系方面的局限性，为未来改进提供了机会。我们的评估在合成数据集和包括纽约市出租车、911、Reddit和Stack Overflow在内的真实世界数据集上进行，证明了SDGN在保持计算效率的同时实现了更高的预测准确性。此外，我们还进行了消融研究以突出其核心组件的贡献。

发布时间: 4/3/2025

查看原文

FUSION: 频率导向的水下空间图像重构

作者: Jaskaran Singh Walia, Shravan Venkatraman, Pavithra LK

arXiv:2504.01243v1 交叉公告类型摘要：水下图像遭受严重的退化，包括由于波长依赖的衰减和散射导致的颜色失真、能见度降低以及结构细节的损失。现有的增强方法主要集中在空域处理上，忽略了频域在捕捉全局颜色分布和长距离依赖性方面的潜力。为了解决这些限制，我们提出了一种名为FUSION的双域深度学习框架，该框架联合利用空域和频域信息。FUSION在空域中通过多尺度卷积核和自适应注意力机制独立处理每个RGB通道，同时通过基于FFT的频域注意力提取全局结构信息。一个频域引导融合模块将两个域中的互补特征进行集成，随后进行通道间融合和自适应通道重新校准，以确保颜色分布的均衡。在基准数据集（UIEB、EUVP、SUIM-E）上的大量实验表明，FUSION在重构保真度（UIEB上的最高PSNR为23.717 dB，SSIM为0.883）、感知质量（UIEB上的最低LPIPS为0.112）和视觉增强指标（UIEB上的最高UIQM为3.414）方面均达到了最先进的性能，同时所需的参数量（0.28M）和计算复杂度显著较低，这证明了其在实时水下成像应用中的适用性。

发布时间: 4/3/2025

查看原文

TenAd: 一种基于张量的低秩黑盒 adversarial 攻击方法用于视频分类

作者: Kimia haghjooei, Mansoor Rezghi

arXiv:2504.01228v1 公告类型: cross 摘要：深度学习模型在计算机视觉领域取得了显著的成功，但在黑箱环境中仍然容易受到对抗性攻击的威胁，特别是在模型细节未知的情况下。现有的对抗性攻击方法（即使包括关键帧的方法）往往将视频数据视为简单的向量，忽略了其固有的多维结构，并需要大量的查询，使其既不高效也易于被检测。在这篇论文中，我们提出了一种名为 \textbf{TenAd} 的新型张量基低秩对抗性攻击方法，通过将视频表示为四阶张量来利用视频数据的多维特性。通过利用低秩攻击，我们的方法显著减少了黑箱环境中生成对抗性样本所需的搜索空间和查询数量。在标准视频分类数据集上的实验结果表明，\textbf{TenAd} 在实现更高攻击成功率和更高效查询的同时，能够生成不可感知的对抗性扰动，优于现有的先进方法。在攻击成功率、查询效率和扰动不可感知性方面，我们的方法优于现有黑箱对抗性攻击方法，突显了基于张量的方法在视频模型对抗性攻击中的潜力。

发布时间: 4/3/2025

查看原文