arXiv:2503.13903v2 宣告类型:替换单元
摘要:近年来,卷积神经网络(CNNs)和视觉变换器(ViTs)的发展推动了视频对象检测取得了显著进展。通常情况下,CNN擅长捕捉局部特征,但在建模全局表示方面存在困难。相反,ViTs擅长捕捉长距离全局特征,但在表示局部特征细节方面面临挑战。现成的视频对象检测方法仅依赖于CNN或ViTs进行特征聚合,这限制了它们同时利用全局和局部信息的能力,从而导致检测性能受限。在这项研究中,我们提出了一种用于视频对象检测的Transformer-GraphFormer Blender网络(TGBFormer),通过对三个关键的技术改进充分利用变换器和图卷积网络的优势,同时弥补它们的不足。首先,我们开发了一个空间-时间变换器模块来聚合全局上下文信息,构建具有长距离特征依赖性的全局表示。其次,我们引入了一个空间-时间GraphFormer模块,利用局部空间和时间关系进行特征聚合,生成与变换器输出互补的新局部表示。第三,我们设计了一个全局-局部特征混频模块来适配性地耦合基于变换器的全局表示和基于GraphFormer的局部表示。广泛的实验结果表明,我们的TGBFormer在ImageNet VID数据集上建立了新的最佳性能。特别地,我们的TGBFormer在单块Tesla A100 GPU上运行时,能够实现约41.0 FPS,并且达到86.5%的mAP。
arXiv:2503.06473v4 更新说明: 替换-交叉
摘要: 有越来越多的证据表明,层注意力机制通过增强深度神经网络内部各层之间的交互,显著推动了网络架构的发展。然而,现有的层注意力方法存在冗余问题,因为相邻层学习到的注意力权重往往变得高度相似。这种冗余导致多个层提取几乎相同特征,降低了模型的表示能力并增加了训练时间。为了解决这一问题,我们提出了一种利用相邻层之间的库尔贝-莱布尼兹(KL)散度来量化冗余的新方法。此外,我们引入了一种增强贝塔分位数映射(EBQM)方法,能够准确识别并跳过冗余层,从而保持模型的稳定性。我们提出的高效层注意力(ELA)架构提高了训练效率和整体性能,在图像分类和目标检测等任务上实现了训练时间减少30%的同时性能提升。
arXiv:2503.03122v3 宣告类型: replace-cross
摘要:多模态奖励模型(MM-RMs)对于使大型语言模型(LLMs)与人类偏好保持一致至关重要,特别是在LLMs越来越多地与多模态数据进行交互的情况下。然而,我们发现,现有的数据集训练出的MM-RMs往往难以泛化到分布外数据,因为它们依赖于单一模态的伪相关性,主要是训练分布中的纯文本捷径,这使得它们无法利用真实的多模态奖励函数。为了解决这个问题,我们介绍了一种意识捷径的MM-RM学习算法,该算法通过动态调整训练样本的权重,将分布转向更好的多模态理解,并减少对单一模态伪相关性的依赖,从而缓解这一问题。我们的实验表明,在泛化能力、下游任务表现和可扩展性方面取得了显著改进,建立了更加稳健的多模态奖励建模框架。
arXiv:2503.01921v2 宣传类型: replace-cross
摘要:SemEval-2025 任务 3(Mu-SHROOM)专注于检测由多种大型语言模型(LLMs)生成的内容中的幻觉,涉及多种语言。此任务不仅包括识别幻觉的存在,还包括确定它们的具体发生情况。为了应对这一挑战,本研究引入了两种方法:修改后的 RefChecker 和修改后的 SelfCheckGPT。修改后的 RefChecker 将基于提示的实事验证整合到参考中,将其结构化为基于声明的测试,而非单一的外部知识来源。修改后的 SelfCheckGPT 则结合外部知识以克服其对内部知识的依赖。此外,两种方法的原始提示设计也得到了增强,以在 LLM 生成的文本中识别幻觉词汇。实验结果证明了该方法的有效性,在检测多种语言中的幻觉时在测试数据集上取得了较高的排名,平均 IoU 为 0.5310,平均 COR 为 0.5669。
arXiv:2503.00955v2 通知类型: 替换-交叉
摘要:虚假信息的泛滥,尤其受到如GPT和Gemini这样的大型语言模型的加剧,需要强有力的事实核查解决方案,尤其是对于像越南语这样的低资源语言。现有方法在语义模糊性、多义词和复杂语言结构方面捉襟见肘,往往在准确性和效率之间权衡。我们提出了SemViQA,这是一种新颖的越南语事实核查框架,结合了基于语义的证据检索(SER)和两步验证分类(TVC)。我们的方法在精确性和速度之间取得了平衡,我们在ISE-DSC01上以78.97%的严格准确率和ViWikiFC上以80.82%的准确率达到了最先进的结果,在UIT数据科学挑战中获得第一名。此外,SemViQA Faster将推理速度提高了7倍,同时保持了竞争力的准确率。SemViQA为越南语事实核查设定了新的基准,推进了对抗虚假信息的斗争。源代码可在以下地址获得:https://github.com/DAVID-NGUYEN-S16/SemViQA。
arXiv:2502.16032v2 通知类型: 交叉替换
摘要:磁共振成像(MRI)是一种用于检测各种疾病中病理组织的强大诊断工具。不同MRI序列对不同类型的病灶具有不同的对比机制和敏感性,这给准确且一致的病灶分割带来了挑战。在临床实践中,放射科医生通常使用亚序列特征,即对比增强T1加权(post)序列与非对比增强(pre)序列之间的差异,来定位病灶。受此启发,我们提出了一种残差融合方法来学习MRI病灶分割的亚序列表示。具体而言,我们迭代地在多个分辨率下融合来自非对比增强和对比增强序列的特征,并使用动态权重实现最佳融合,以解决各种病灶增强模式。我们的方法在BraTS2023数据集和我们内部乳腺MRI数据集中的脑肿瘤分割和乳腺病灶分割中达到了最先进的性能。该方法具有临床启发性,并有可能在各种应用中促进病灶分割。
arXiv:2502.14908v2 宣告类型: replace-cross
摘要:视觉语言模型(VLM)展示了复杂的多模态推理能力,但在遇到知识冲突时容易产生幻觉,这阻碍了它们在信息敏感环境中的部署。虽然现有的研究关注于单模态模型的鲁棒性,但多模态领域缺乏对跨模态知识冲突系统的系统性调查。本研究引入了 \segsub,一种应用目标化图像扰动的框架,以调查 VLM 对知识冲突的韧性。我们的分析揭示了不同的脆弱性模式:虽然 VLM 对参数冲突表现出鲁棒性(20% 的一致性率),但在识别假设情境(<30% 的准确性)和解决来源冲突(<1% 的准确性)方面表现出显著的弱点。上下文丰富度与幻觉率之间的相关性(r = -0.368,p = 0.003)揭示了哪些类型的图像可能导致幻觉。通过在我们的基准数据集上进行目标化微调,我们展示了 VLM 知识冲突检测的改进,为在信息敏感环境中开发抗幻觉多模态系统奠定了基础。
arXiv:2502.11013v3 通知类型: 替换交叉
摘要:准确预测都市时空动态对于改进城市管理与决策至关重要。现有的时空预测模型主要是确定性的,主要关注基本的时空模式。然而,这些动态极为复杂,表现出多模态分布,这对于确定性模型来说难以捕捉。在本文中,我们强调了在捕捉时空数据固有的不确定性和复杂性方面概率预测的关键作用。虽然主流的概率模型可以捕捉不确定性,但在准确学习主要模式方面仍存在困难,并且通常会遭受计算效率低下。为了解决这些挑战,我们提出了CoST,它将确定性和概率模型相结合,以提高预测准确性和处理不确定性的能力。通过这种方法,我们设计了一个均值残差分解框架,其中均值由确定性模型建模,残差变化则由概率模型,即扩散模型学习。此外,我们引入了一种尺度感知的扩散过程,更好地考虑了不同地区之间的时空异质性动态。在八个真实世界数据集上的广泛实验表明,CoST在确定性和概率度量方面均显著优于现有方法,且计算成本较低,能够实现20%的性能提升。CoST填补了确定性精度和概率不确定性之间的空白,在都市时空预测领域取得了重要进展。
arXiv:2502.08282v2 宣告类型: replace-cross
摘要:估算个体治疗效果(ITE)——即一组变量(也称为暴露、治疗、行动、政策或干预措施),简称“复合治疗”,对一组感兴趣的结局变量(简称“复合结局”)的影响,对于单位从观察数据中进行因果推断——仍然是跨学科领域中的一个基本问题,如医疗卫生、经济学、教育学、社会科学、市场营销和计算机科学等领域的应用。因果机器学习中关于ITE估算的研究主要局限于简单的设置,例如单一治疗和单一结局。这阻碍了它们在复杂现实场景中的应用;例如,考虑研究不同ICU干预措施(如心血管手术入院患者的β受体阻滞剂和他汀类药物)对不同结局(如房颤和院内死亡率)的影响。复合治疗和复合结局研究的有限性主要是由于所有治疗和结局的数据稀缺。为了解决上述挑战,我们提出了一种新颖的基于超网络的方法,称为“H-Learner”,以解决在复合治疗和复合结局下的ITE估算问题,并通过动态跨治疗和结局共享信息来解决数据稀缺问题。我们的实证分析表明,与现有方法相比,提出的这种方法在二元和任意复合治疗和结局情况下具有有效性。
arXiv:2502.07693v3 通知类型: 交叉替换
摘要: 近年来,已经研究并开发出了多种基于AI的个性化助手,旨在帮助用户在经常充斥着各种隐私决策请求的在线环境中做出与隐私相关的决策。这些由AI驱动的个性化隐私助手(AI驱动的PPAs)可以为用户提供重要的益处,因为他们可能无法应对这些复杂的隐私决策请求。迄今为止,还没有系统地研究过由AI驱动的PPAs这个新兴领域,包括其底层技术、架构和功能分类,包括决策类型或其决策的准确性。为了填补这一空白,我们提出了一种系统文献综述(SLR)来映射科学文献中发现的现有解决方案,这有助于对现有方法和该研究领域中的开放挑战进行推理。我们在最近几年(2013-2025)筛选了几百篇独特的研究论文,构建了一个由41篇包含论文构成的分类。因此,这项SLR从出版物类型、贡献、研究方法的质量以及其他定量见解方面审查了现存的AI驱动PPAs研究的各个方面。此外,我们还提供了一个全面的分类,深入探讨了其架构选择、系统环境、使用的AI类型、数据来源、决策类型以及决策控制等方面。基于我们的SLR,我们进一步突出了研究空白和挑战,并提出了关于设计和开发由AI驱动的PPAs的建议,以及未来研究的方向。