多智能体强化学习(MARL)领域目前正面临可复现性危机。虽然已提出了一些关于标准化报告的解决方案来解决这个问题,但我们仍然缺乏一个能够实现标准化和可复现性,同时利用最先进强化学习(RL)实现的基准测试工具。本文介绍了BenchMARL,这是第一个用于在不同算法、模型和环境之间进行标准化基准测试的MARL训练库。BenchMARL使用TorchRL作为其后端,使其具有高性能和维护良好的最先进实现,同时面向广泛的MARL PyTorch用户群体。其设计能够实现系统的配置和报告,从而允许用户通过简单的单行输入创建和运行复杂的基准测试。BenchMARL已在GitHub上开源:https://github.com/facebookresearch/BenchMARL
数据集蒸馏或浓缩旨在从大型数据集中生成一个更小但更具代表性的子集,这允许更有效地训练模型,同时在原始测试数据分布上进行评估以获得不错的性能。以往的解耦方法,如SRe$^2$L,只是简单地使用统一的梯度更新方案从高斯噪声中合成数据,而我们注意到,最初几次更新迭代将决定合成的最终轮廓,因此不合适的梯度更新策略可能会极大地影响最终生成的质量。为了解决这个问题,我们在数据合成过程中引入了一种简单而有效的基于课程数据增强($\texttt{CDA}$)的全局到局部的梯度细化方法。该框架在ImageNet-1K和21K这两个大型数据集上都达到了目前已发表的最高精度,在IPC(每类图像数)为50时达到63.2%,在IPC为20时达到36.1%,使用224$\times$224的常规输入分辨率,收敛速度更快,合成时间更短。该模型在ImageNet-1K/21K上比SRe$^2$L、TESLA和MTT等现有最先进的方法提高了4%以上的Top-1精度,并且首次将与完整数据训练的模型之间的差距缩小到绝对值小于15%。此外,这项工作代表了在标准224$\times$224分辨率下,对更大规模ImageNet-21K数据集进行数据集蒸馏的首次成功。我们的代码和蒸馏后的ImageNet-21K数据集(20 IPC,2K恢复预算)可在https://github.com/VILA-Lab/SRe2L/tree/main/CDA获取。
协同感知技术近期在自动驾驶领域受到广泛关注,通过车辆间信息交换来提升感知质量。然而,协同感知系统的部署可能由于不同的环境条件和联网自动驾驶车辆 (CAV) 之间的数据异构性而导致领域偏移。为了应对这些挑战,我们提出了一种统一的领域泛化框架,用于协同感知的训练和推理阶段。在训练阶段,我们引入了一种幅度增强 (AmpAug) 方法来增强低频图像变化,从而拓宽模型跨多个领域学习的能力。我们还采用了一种元一致性训练方案来模拟领域偏移,并利用精心设计的 consistency loss 来优化模型,从而获得领域不变的表示。在推理阶段,我们引入了一种系统内领域对齐机制,以减少或消除 CAV 之间的领域差异,从而提升推理效果。大量的实验结果证实了我们方法相较于现有最先进技术的有效性。
寻找特定人物具有巨大的社会效益和安全价值,通常涉及视觉和文本信息的结合。传统的基于图像或基于文本的人物检索方法通常难以有效利用这两种信息,导致精度下降。本文提出了一种全新的任务,即组合式人物检索 (CPR),用于联合利用图像和文本信息进行目标人物检索。然而,监督式 CPR 需要非常昂贵的标注数据集,而目前尚无可用资源。为了解决这个问题,我们首先介绍了零样本组合式人物检索 (ZS-CPR),它利用现有的领域相关数据来解决 CPR 问题,无需昂贵的标注。其次,为了学习 ZS-CPR 模型,我们提出了一种两阶段学习框架 Word4Per,其中一个轻量级的文本反演网络 (TINet) 和一个基于微调对比语言图像预训练 (CLIP) 网络的基于文本的人物检索模型无需任何 CPR 数据即可学习。第三,我们构建了一个精细标注的图像文本组合式人物检索 (ITCPR) 数据集作为基准,以评估所提出的 Word4Per 框架的性能。在 Rank-1 和 mAP 下进行的大量实验表明,Word4Per 对 ZS-CPR 任务的有效性,比对比方法高出 10% 以上。代码和 ITCPR 数据集将公开发布于 https://github.com/Delong-liu-bupt/Word4Per。
这项工作提出了DocPedia,这是一个用于多功能无OCR文档理解的新型大型多模态模型(LMM),能够解析高达2560×2560分辨率的图像。与现有工作难以处理高分辨率文档或放弃大型语言模型从而导致视觉或语言能力受限不同,我们的DocPedia直接在频域而非像素空间处理视觉输入。这一独特的特性使DocPedia能够使用有限数量的视觉标记来捕获更多视觉和文本信息。为了持续增强模型的感知和理解能力,我们开发了一种两阶段训练策略,并丰富了涵盖多种文档类型的所有训练任务的指令/注释。在各种公开可用的基准上进行的大量定量和定性实验证实了联合学习感知和理解任务的相互好处。结果进一步证明了我们的DocPedia相对于其他方法的有效性和优越性能。
多模态基础模型在医学影像解读方面展现出令人信服却又相互矛盾的性能。然而,这些模型整合和优先处理不同数据模态(包括图像和文本)的机制仍然知之甚少。本文使用包含1014个多模态医学病例的丰富数据集,评估了专有(GPT-4,Gemini Pro 1.0)和开源(Llama-3.2-90B,LLaVA-Med-v1.5)多模态基础模型在使用和不使用文本描述的情况下,其单模态和多模态医学影像解读能力。在所有模型中,图像预测主要依靠利用文本信息,准确率随着信息性文本数量的增加而单调递增。相比之下,人类在医学影像解读方面的表现并没有随着信息性文本的增加而提高。文本的利用是一把双刃剑;我们发现,即使是文本中轻微的错误诊断暗示也会降低基于图像的分类性能,在模型先前仅凭图像就能解答的病例中,性能会大幅下降。最后,我们对模型在长篇医学病例上的表现进行了医生评估,发现当文本信息量已经很高时,提供图像要么降低了模型的性能,要么没有影响。我们的结果表明,多模态人工智能模型可能对医学诊断推理有用,但其准确性很大程度上取决于其对文本的利用,利弊兼有。
在音乐 AI 领域,从简单的乐谱创作丰富且结构化的多轨伴奏是一项极具挑战性的任务。这些挑战包括保持音轨的连贯性、确保长期的和谐性以及优化计算效率。本文介绍了一种新颖的系统,该系统利用先前对解耦风格因素的建模来应对这些挑战。我们的方法采用两阶段流程:首先,通过检索钢琴织体风格从乐谱中导出钢琴伴奏;随后,通过将管弦乐功能风格融入钢琴伴奏中生成多轨管弦乐编曲。我们的关键设计是使用矢量量化和独特的多分支 Transformer 来模拟管弦乐风格的长期流动,这使得灵活、可控和结构化的音乐生成成为可能。实验表明,通过将编曲任务分解成可解释的子阶段,我们的方法提高了生成能力并提高了效率。此外,我们的系统支持多种音乐类型,并在不同的作曲层次上提供风格控制。我们进一步证明,与现有基线相比,我们的系统在连贯性、结构和整体编曲质量方面均取得了优越的性能。
提示注入攻击旨在将恶意指令/数据注入到基于大型语言模型的应用程序的输入中,以使其产生攻击者期望的结果。现有工作仅限于案例研究,因此文献缺乏对提示注入攻击及其防御的系统性理解。本工作旨在弥合这一差距。具体来说,我们提出了一个框架来形式化提示注入攻击,现有的攻击都是我们框架中的特例。此外,基于我们的框架,我们通过组合现有的攻击设计了一种新的攻击方法。利用我们的框架,我们对5种提示注入攻击和10种防御方法进行了系统评估,使用了10个大型语言模型和7个任务。我们的工作为定量评估未来的提示注入攻击和防御提供了一个通用基准。为了促进对这一主题的研究,我们将我们的平台公开发布在https://github.com/liu00222/Open-Prompt-Injection。
大多数现有的从图像焦堆栈进行深度估计的方法都采用卷积神经网络 (CNN),在固定图像集上使用二维或三维卷积。然而,其有效性受到 CNN 核的局部属性的限制,这限制了它们在训练和推理过程中只能处理固定数量图像的焦堆栈。这种限制阻碍了它们泛化到任意长度堆栈的能力。为了克服这些限制,我们提出了一种新颖的基于 Transformer 的网络 FocDepthFormer,它集成了 Transformer、LSTM 模块和 CNN 解码器。Transformer 的自注意力机制允许通过隐式执行非局部交叉引用来学习更具信息量的空间特征。LSTM 模块旨在整合不同长度图像堆栈的表示。此外,我们在早期编码器中采用多尺度卷积核来捕获不同聚焦/散焦程度的低级特征。通过结合 LSTM,FocDepthFormer 可以在大规模单目 RGB 深度估计数据集上进行预训练,从而改进视觉模式学习并减少对难以获得的焦堆栈数据的依赖。在各种焦堆栈基准数据集上的大量实验表明,我们的模型在多个评估指标上都优于最先进的方法。
文本检索在将事实知识融入语言处理流程(从基于聊天的网络搜索到问答系统)的决策过程中发挥着至关重要的作用。当前最先进的文本检索模型利用预训练的大型语言模型 (LLM) 来实现具有竞争力的性能,但通过典型的对比损失训练基于 LLM 的检索器需要复杂的启发式方法,包括选择难负样本和使用额外的监督作为学习信号。这种对启发式的依赖源于对比损失本身就是启发式的,它并不直接优化处理流程末端决策质量的下游指标。为了解决这个问题,我们引入了神经 PG-RANK,这是一种新颖的训练算法,它通过将 LLM 实例化为 Plackett-Luce 排序策略来学习排序。神经 PG-RANK 提供了一种利用策略梯度对检索模型进行端到端训练的原则性方法,作为更大决策系统的一部分,很少依赖复杂的启发式方法,并且它有效地将训练目标与下游决策质量统一起来。我们在各种文本检索基准上进行了广泛的实验。结果表明,当训练目标与评估设置一致时,神经 PG-RANK 会产生显著的领域内性能改进,并在用于下游问答任务的一些关键数据集上实现显著的领域外泛化能力。