arXiv:2505.01169v1 类型: cross
摘要: 一种流匹配模型学习一个时间依赖的向量场 $v_t(x)$,该向量场生成一个概率路径 $\{ p_t \}_{0 \leq t \leq 1}$,该路径在已知噪声分布 ($p_0$) 和数据分布 ($p_1$) 之间进行插值。它可以被简化为一种 \emph{双时流模型} (TTFM) $\phi_{s,x}(t)$,该模型可以在一次函数评估中将初始时间 $s$ 时属于某个分布的样本转换为在终端时间 $t$ 时属于该分布的另一个样本。我们提出了一种新的 TTFM 简化损失函数,称为 \emph{起始/终端速度匹配} (ITVM) 损失,该损失通过增加冗余项来匹配初始时间 $s$ 时的速度,移除了终端时间 $t$ 时的速度项的导数,并使用经过指数移动平均 (EMA) 稳定的训练模型来计算目标终端平均速度。初步实验表明,我们的损失函数在多种类型的数据集和模型架构上比基线模型能够实现更好的多步生成性能。
arXiv:2505.01168v1 威胁类型:跨平台
摘要:模型ensemble攻击的发展显著提高了对抗样本的转移性,但这种进步也对深度神经网络的安全性造成了严重威胁。现有方法面临着两个关键挑战:无法充分捕捉模型间共享的梯度方向以及缺乏适应性的权重分配机制。为了解决这些问题,我们提出了一种名为Harmonized Ensemble for Adversarial Transferability (HEAT)的新型方法,这是首次将领域泛化引入对抗样本生成。HEAT包括两个关键模块:共识梯度方向合成器,使用奇异值分解来合成共享的梯度方向;以及双和声权重调度器,该模块动态平衡领域内的一致性,稳定单个模型内的梯度,以及领域间的多样性,增强模型间的转移性。实验结果表明,HEAT在各种数据集和设置下显著优于现有方法,为对抗攻击研究提供了新的视角和方向。
arXiv:2505.01162v1 类别: cross
摘要:导向向量是一种在推理时对语言模型行为进行对齐的有希望的方法。在本文中,我们提出了一种框架来评估导向向量作为对齐机制的局限性。通过使用变压器钩介入和反义词基础的功能向量框架,我们评估了提示结构和上下文复杂性在导向效果中的作用。我们的发现表明,导向向量对于特定的对齐任务(如价值对齐)是有前景的,但在LLMs的一般对齐中,特别是在复杂场景中,可能无法提供一个稳健的基础。我们为未来关于推理模型导向能力的研究奠定了方法论基础。
arXiv:2505.01130v1 声明类型: cross
摘要: 近年来,能够在对抗行动面前提供可靠预测的学习模型已成为机器学习社区的一个核心焦点。这一挑战源于观察到部署时遇到的数据往往与模型训练时的条件不同。在本文中,我们针对部署时的对抗行动提出了一个多功能且原理上合理的框架,用于评估模型在面对各种类型和强度的攻击时的鲁棒性。虽然最初我们专注于支持向量回归(SVR),但提出的这种方法自然适用于通过宽松优化技术进行学习的广泛领域。我们的结果使得在不需要额外测试数据的情况下评估模型的脆弱性成为可能,并且在无分布假设的设置下运行。这些结果不仅提供了一个工具,以增强对模型适用性的信任,而且还帮助在多种替代方案中进行选择。在本文中,我们展示了我们的发现还为在分布外框架内建立新的结果提供了有用见解。
arXiv:2505.01109v1 Announce Type: 全文
摘要: 多实例学习(MIL)已经成为全切片图像(WSI)分类的最佳解决方案。它包括将每张切片分为多个斑块,这些斑块被视为一个带有全局标签的实例集合。MIL 包含两种主要方法:实例基和嵌入基。在实例基方法中,每个斑块独立分类,然后汇总斑块评分以预测集合标签。而在嵌入基方法中,在汇总斑块嵌入后进行集合分类。尽管实例基方法自然更具可解释性,但在过去,嵌入基 MIL 由于其对差特征提取器的鲁棒性而常用。然而,最近,通过自我监督学习(SSL)特征嵌入的质量显著提高。尽管如此,许多作者继续认为嵌入基 MIL 优于实例基 MIL。为深入探究这一点,我们在 4 个数据集上进行了 710 项实验,比较了 10 种 MIL 战略、6 种自我监督方法和 4 种后端模型、4 种基础模型以及各种病理特异性技术。此外,我们引入了 4 种新的实例基 MIL 方法,这些方法之前在病理学领域从未被使用过。通过这些广泛的实验,我们展示了,在具有良好 SSL 特征提取器的情况下,具有极少数参数的简单实例基 MIL 方法在 BRACS 和 Camelyon16 数据集上达到或超过了复杂、最先进的嵌入基 MIL 方法的表现,从而设置新的最先进的性能。由于简单实例基 MIL 方法自然更具可解释性和可解释性,我们的结果显示,应该更注重适用于 WSI 的良好适应性 SSL 方法,而不是复杂的嵌入基 MIL 方法。
arXiv:2505.01094v1 交叉类型:cross
摘要:许多现实世界的问题(例如,资源管理、自动驾驶、药物发现)需要优化多个互相冲突的目标。多目标 reinforcement 学习(MORL)将经典 reinforcement 学习扩展到同时处理多个目标,从而生成能够捕获各种权衡的一组策略。然而,MORL 领域缺少复杂且现实的环境和基准测试。我们介绍了一个水资源(尼罗河盆地)管理案例研究,并将其建模为一个 MORL 环境。然后,我们在该任务上对现有的 MORL 算法进行了基准测试。我们的结果显示,专门化的水资源管理方法在现有的 MORL 方法中表现出色,突显了 MORL 算法在现实世界场景中的可扩展性挑战。
arXiv:2505.01091v1 Announce Type: cross
摘要:生成模型已经彻底改变了人工智能(AI),尤其是在多模态应用方面。然而,将这些模型适应医学领域带来了独特的挑战,因为医学数据的复杂性和对临床准确性的严格需求。在本文中,我们介绍了一个专门为多模态医学数据生成设计的框架。通过实现多视角胸部X光图像及其相应的临床报告的生成,该框架填补了通用视觉-语言模型与医疗保健领域的特殊需求之间的空白。利用MIMIC-CXR数据集,所提出的方法在生成高保真图像和语义一致的报告方面表现出色。我们的定量评估在FID和BLEU分数方面显示出显著的结果,展示了生成数据的质量。值得注意的是,与真实数据相比,我们的框架在下游疾病分类任务中取得了可比或更优的性能,突显了其作为医学研究和诊断工具的潜力。这项研究强调了针对特定领域的适应在提高生成模型在临床应用中的相关性和实用性方面的重要性,为合成多模态医学数据生成的未来进步铺平了道路。
arXiv:2505.01085v1 通告类型: cross
摘要:人工智能(AI)在公共行政中的应用正在迅速扩展,从自动化常规任务到部署自主实现目标的生成性和代理系统。虽然AI承诺了更高的效率和更强的响应性,但其融入政府职能引发了公平性、透明度和问责制方面的担忧。本文将主要代理理论(PAT)应用于将AI采用视为代理委托的一种特殊情形,突显了三个主要张力:可验证性(决策可以被理解吗?)、依赖性(委托关系可以被逆转吗?)和可争议性(决策可以被质疑吗?)这些结构性挑战可能导致“成功中的失败”动态,即短期内的功能性收益掩盖了长期对民主合法性的风险。为了检验这一框架,我们在税收、福利和执法领域进行了预先注册的因子调查实验。研究结果显示,尽管效率提升最初增强了公众的信任,但同时减少了公民的感知控制。当结构性风险变得显而易见时,制度信任和感知控制都会急剧下降,表明AI采用的隐性成本形象地塑造了公众态度。该研究证明,PAT为理解政府中AI的机构和政治影响提供了一个强大的视角,强调政策制定者需要透明地解决委托风险,以维持公众信任。
arXiv:2505.01070v1 宣告类型: cross
摘要:知识蒸馏(KD)已成为一种使用更大规模的预训练教师模型来训练紧凑的学生模型的强大工具,通常需要较少的数据和计算资源。教师模型通常具有更多的层,因此相比其学生模型而言能展示出更丰富的特征表示。此外,学生模型倾向于在早期层中学习更简单、表层的特征。这种差异可能在标签和特定输入属性虚假关联的群体中增加错误,从而在总体准确性仍然能够与教师相媲美的情况下,导致群体公平性的下降。为了缓解这些挑战,早期退出神经网络(EENNs)被采用,这类网络能够在多个中间层进行预测。这些早期退出的置信边际被用于根据不同实例重新加权交叉熵损失和蒸馏损失。在本文中,我们提出利用基于拉普拉斯近似的方法获得校准良好的不确定性估计,也可以有效地重新加权具有挑战性的实例并改善群体公平性。我们假设拉普拉斯近似相比边际基方法能更稳健地识别困难或模棱两可的实例。为了验证我们的假设,我们在使用基于Bert的模型和MultiNLI数据集上对我们的方法进行了基准测试。
arXiv:2505.01068v1 类型:交叉
摘要:多模态情感分析(MSA)是一个正在快速发展的领域,它结合多模态信息以识别情感,并且现有模型在这个领域取得了显著进展。MSA 中的主要挑战是多模态融合,这主要通过多模态变压器(MulTs)来解决。尽管 MulTs 起到了范式作用,但它们在效率方面存在一些问题。在这项工作中,从效率优化的角度出发,我们提出并证明了 MulTs 是一种分层模态异构图(HMHGs),并且我们引入了 MulTs 的图结构表示模式。基于这一模式,我们提出了一种交错遮罩(IM)机制,设计了图结构和交错遮罩的多模态变压器(GsiT)。该机制在 IM 的帮助下,实现了有效的权重共享机制,同时避免了信息混乱,从而通过纯 MulTs 参数量的三分之一实现了全模态融合。还实现了一个名为 Decomposition 的 Triton 核心,以确保避免额外的计算开销。此外,它在传统 MulTs 上实现了显著更高的性能。为了进一步验证 GsiT 本身和 HMHG 概念的有效性,我们将它们整合到多个最先进的模型中,在广泛使用的 MSA 数据集上展示了显著的性能提升和参数减少。