arXiv:2504.12721v1 交叉公告类型:cross
摘要:近年来,用于长期时间序列预测(LTSF)的深度学习模型通常强调复杂的手工设计,而简单的架构如线性模型或MLPs却经常性能优于这些复杂的解决方案。在这篇论文中,我们重新审视并组织了几个关键技术的核心思想,如冗余减少和多尺度建模,这些技术在先进的LTSF模型中经常被使用。我们的目标是简化这些思想,以便更高效地利用深度学习。为此,我们引入了TimeCapsule模型,该模型以高维信息压缩的原则为基础,将这些技术统一在一个通用而简化的框架中。具体而言,我们将时间序列建模为3D张量,包含时间、变量和层次维度,并利用模式生成来捕获多模式依赖性同时实现维度压缩。我们提出了基于联合嵌入预测架构(JEPA)的支持下在压缩表示域内的内部预测,以监控预测表示的学习。在具有挑战性的基准上的广泛实验表明了我们方法的多样性,显示了TimeCapsule可以实现最先进的性能。
arXiv:2504.12718v1 宣告类型:交叉学科
摘要:增强人工智能(AI)的数字病理学在改善病理学家的工作流程方面前景巨大。然而,全切片图像(WSI)的劳动密集型注释、高计算需求以及由于预测中缺乏不确定性估计而产生的信任问题阻碍了当前AI方法在组织病理学中的实际应用。为了应对这些挑战,我们提出了一种新的信任可靠的完全无监督多级分割方法(TUMLS)用于WSI。TUMLS采用自动编码器(AE)作为特征提取器,在低分辨率训练数据中识别不同的组织类型。根据不确定性度量选择每个识别组的代表性斑块,然后在各自的高分辨率空间中进行无监督的核细胞分割,而无需使用任何机器学习算法。至关重要的是,该解决方案无缝集成到临床工作流中,将WSI的检查转化为对简洁、可解释的多级见解的审查。这种集成显著增强了并加速了工作流程,同时确保了透明性。我们使用UPENN-GBM数据集评估了该方法,其中AE达到了均方误差(MSE)0.0016。此外,在MoNuSeg数据集上评估核细胞分割,与所有无监督方法相比,其F1分数为77.46%,交并比为63.35%。这些结果展示了TUMLS在推进数字病理学领域的有效性。
arXiv:2504.12717v1 类型: cross
摘要: 对比语言图像预训练(CLIP)是构建现代多模态视觉语言基础模型的核心组件。尽管CLIP在下游任务上展示了显著的零样本性能,但多模态特征空间仍然存在模态差距,即图像特征和文本特征簇之间的差距,限制了下游任务的性能。尽管现有工作通过修改预训练或微调试图解决模态差距,但在大型数据集上进行训练时会面临高昂的训练成本,或者导致零样本性能下降。本文提出了CLIP-Refine,这是一种在预训练和微调之间的阶段对CLIP模型进行的后处理方法。CLIP-Refine旨在通过在小型图像-文本数据集上进行1个epoch的训练来使特征空间对齐,而不影响零样本性能。为此,我们提出了两种技术:随机特征对齐(RaFA)和混合对比蒸馏(HyCD)。RaFA通过将图像和文本特征对齐到先验分布中,最小化与从先验中采样的随机参考向量的距离,来实现这一目标。HyCD通过结合真实图像-文本对标签和预训练CLIP模型的输出生成混合软标签来更新模型。这有助于同时维护过去的知识并学习新的知识以对齐特征。我们使用多个分类和检索任务进行了广泛的实验,结果显示CLIP-Refine成功地缓解了模态差距并提高了零样本性能。
arXiv:2504.12714v1 交叉公告类型: cross
摘要: 在一项合作任务中适应新伙伴的零样本协调(ZSC)能力是人类兼容AI的关键组成部分。尽管先前的工作侧重于训练代理在一个单一任务上的合作,但这些专门的模型并不适用于新任务,即使这些新任务与之前的任务非常相似。在这里,我们研究了在具有单一伙伴的一组环境中使用强化学习如何能够学习通用的合作技能,这些技能支持在许多新问题和许多新伙伴上应用零样本协调。我们引入了两个基于Jax的程序生成器,它们能够创建数十亿个可解的协调挑战。我们开发了一种新的范式,称为交叉环境合作(CEC),并在与真实人类合作时,它在定量和定性上都优于竞争基准。我们的发现表明,在许多独特场景中学习合作促使代理发展出通用规范,这些规范对于与不同伙伴的合作非常有效。综上所述,我们的结果表明了一条新的途径,旨在设计能够与人类交互的一般协调代理,而不需要使用人类数据。
arXiv:2504.12711v1 宣布类型: 交叉
摘要:本文回顾了2025年NTIRE挑战中关于Dual-Focused图像白天和夜晚雨滴去除的挑战。该挑战收到了一系列令人印象深刻的方法,这些方法是在我们收集的真实世界Raindrop Clarity数据集上开发和评估的。与现有的去雨数据集不同,我们的Raindrop Clarity数据集在退化类型和内容方面更具多样性和挑战性,其中包括白天雨滴聚焦、白天背景聚焦、夜晚雨滴聚焦和夜晚背景聚焦的退化。该数据集分为三个子集用于竞赛:14,139张图像用于训练,240张图像用于验证,731张图像用于测试。此次挑战的主要目标是为在不同光照和聚焦条件下的雨滴去除任务建立一个新的强有力的基准。共有361名参赛者参加了比赛,其中32支团队提交了有效的解决方案和最后测试阶段的事实说明。这些提交在Raindrop Clarity数据集上实现了最先进的(SOTA)性能。该项目可以在以下网址找到:https://lixinustc.github.io/CVPR-NTIRE2025-RainDrop-Competition.github.io/。
arXiv:2504.12681v1 交叉类型: cross
摘要: 在大量数据集上进行训练的大语言模型(LLMs)往往会学习到敏感信息,这在“被遗忘的权利”等原则下引发了重大的社会和法律问题。从头重新训练整个模型以移除不需要的信息既昂贵又不实际。此外,现有的单一领域遗忘方法无法解决多领域场景的问题,在这种场景中,知识在隐私和版权等领域交织在一起,创建了重叠的表示,导致过度的知识移除或性能下降。为了解决这些问题,我们提出了 GRAIL(基于梯度的自适应遗忘),这是一种新颖的多领域遗忘框架。GRAIL 利用多个领域中的梯度信息来精确区分遗忘范围和保留范围,并应用自适应的参数局部化策略,有选择地移除目标知识同时保留每个领域的关键参数。在遗忘基准上的实验结果表明,GRAIL 在遗忘成功率方面与现有的方法相当,同时展示了高达 17% 更强的知识保留成功率,比之前的最佳方法更具优势。我们的发现确立了一个新的范式,用于有效管理并调节大规模预训练语言模型中的敏感信息。
arXiv:2504.12673v1 Announce Type: cross
摘要:自提取压缩利用小型语言模型来压缩与查询相关的上下文,从而在检索增强生成(RAG)中减少计算成本。然而,检索到的文档通常包含与回答查询无关的信息,或者由于事实错误的内容而具有误导性,尽管这些文档有较高的相关得分。这种行为表明,自提取压缩器更有可能遗漏对正确答案至关重要的信息,尤其是在长上下文中注意力分散的情况下。为了解决这一问题,我们以更精细的方式对检索到的文档进行分类,并提出了一种名为Abstractive Compression Robust against Noise (ACoRN)的方法,该方法引入了两种新颖的训练步骤。首先,我们在训练数据集上使用离线数据增强,以增强压缩器对两种不同类型的检索噪声的鲁棒性。其次,由于基于语言模型的压缩器无法充分利用多份检索文档中的信息,并表现出位置偏见,我们进行微调以生成围绕支持正确答案的关键信息为中心的摘要。我们的实验表明,使用ACoRN作为压缩器训练的T5-large模型在保留答案字符串的同时提高了EM和F1分数,这可以作为直接证据。ACoRN在包含大量降低准确率的文档的数据集上表现出色,使其在实际场景中非常有用。
arXiv:2504.12672v1 交叉公告类型
摘要:人工智能(AI)天气模型在某些变量上现已达到运营级别的性能,但像传统的数值天气预报(NWP)模型一样,它们仍表现出系统偏差和可靠性问题。我们测试了气象局现有的统计后处理系统IMPROVER应用于欧洲中期天气预报中心(ECMWF)的确定性人工智能预报系统(AIFS),并将结果与ECMWF HRES和ENS模型的后处理输出进行比较。无需对配置或处理工作流程进行任何修改,后处理为AIFS提供了与传统NWP预测相当的准确性改进,无论是期望值还是概率输出。我们展示了将AIFS与NWP模型结合使用可以提高整体预报技能,即使AIFS单独使用时不是最准确的组件也是如此。这些发现表明,为NWP开发的统计后处理方法直接适用于AI模型,使国家气象中心能够以低风险、渐进的方式将AI预报纳入现有工作流程中。
arXiv:2504.12663v1 类别: cross
摘要: 将语言模型与人类偏好对齐面临着显著的挑战,特别是在实现个性化对齐而不产生过高的计算成本的情况下。现有方法依赖于奖励信号和额外的标注数据,这限制了它们的可扩展性和对多种人类价值观的适应性。为了应对这些挑战,我们引入了Persona-judge这一新颖的辨别性范式,它能够在未训练的情况下实现对未见偏好的个性化对齐。Persona-judge 不是通过外部奖励反馈优化策略参数,而是利用模型自身的内在偏好判断能力。具体地,草稿模型生成给定偏好条件下的候选令牌,而判断模型则体现另一种偏好,对预测的令牌是否接受进行交叉验证。实验结果表明,Persona-judge 利用了模型固有的偏好评估机制,提供了一种可扩展且计算效率高的个性化对齐解决方案,为更加适应性和定制化的对齐铺平了道路。
arXiv:2504.12644v1 安全类型:交叉
摘要:基于深度学习(DL)的图像分类模型对于自动驾驶车辆(AV)感知模块至关重要,因为错误的分类可能会产生严重的后果。对抗性攻击是广泛研究的网络攻击类型,可以导致DL模型预测不准确的输出,例如自动驾驶车辆感知模块错误分类交通标志。在本研究中,我们创建并比较了混合经典-量子深度学习(HCQ-DL)模型与经典深度学习(C-DL)模型,以展示感知模块在对抗性攻击方面的鲁棒性。在将它们输入到量子系统之前,我们使用了AlexNet和VGG-16作为特征提取器的迁移学习模型。我们在HCQ-DL模型中测试了超过1000个量子电路,针对三种知名的未针对攻击方法——投影梯度下降(PGD)、快速梯度符号攻击(FGSA)和梯度攻击(GA)。我们评估了所有模型在对抗性攻击和非攻击情况下的性能。我们的HCQ-DL模型在无攻击情况下保持了95%以上的准确性,在GA和FGSA攻击下保持了91%以上的准确性,这高于C-DL模型。在PGD攻击下,我们的基于AlexNet的HCQ-DL模型保持了85%的准确性,而C-DL模型的准确性低于21%。我们的结果表明,在对抗环境中,HCQ-DL模型相比其经典对应模型提供了更好的交通标志分类准确性。