随着多模态大型语言模型(MLLMs)的快速发展,确保这些模型免受恶意输入的攻击,同时使其与人类价值观保持一致,已成为一项关键挑战。本文研究了一个重要且未被探索的问题:成功越狱大型语言模型(LLMs)的技术是否同样能够有效越狱MLLMs。为了探索这个问题,我们引入了JailBreakV-28K,这是一个开创性的基准测试,旨在评估LLM越狱技术向MLLMs的迁移能力,从而评估MLLMs对各种越狱攻击的鲁棒性。利用本文提出的包含2000个恶意查询的数据集,我们使用先进的LLM越狱攻击生成了20000个基于文本的越狱提示,以及来自最近MLLMs越狱攻击的8000个基于图像的越狱输入,我们全面的数据集包含28000个涵盖各种对抗场景的测试用例。我们对10个开源MLLMs的评估显示,从LLMs迁移过来的攻击的攻击成功率(ASR)非常高,这突出了MLLMs的一个关键漏洞,该漏洞源于其文本处理能力。我们的研究结果强调了未来研究迫切需要解决MLLMs在文本和视觉输入方面的对齐漏洞。
近年来,基于视觉Transformer的方法在低层视觉任务中取得了广泛的成功。与基于卷积神经网络(CNN)的模型不同,Transformer更擅长捕捉长程依赖关系,能够利用非局部信息重建图像。在超分辨率领域,基于Swin Transformer的模型因其全局空间信息建模能力和其促进不同窗口之间信息交换的滑动窗口注意力机制而成为主流。许多研究人员通过扩展感受野或设计精细的网络来提高模型性能,取得了可喜的成果。然而,我们观察到,特征图强度在网络末端突然被抑制到较小值是一种普遍现象。这意味着信息瓶颈和空间信息的减少,隐含地限制了模型的潜力。为了解决这个问题,我们提出了密集残差连接Transformer (DRCT),旨在减轻空间信息的损失并通过层间的密集残差连接来稳定信息流,从而释放模型的潜力并避免模型陷入信息瓶颈。实验结果表明,我们的方法在基准数据集上超过了最先进的方法,并在NTIRE-2024图像超分辨率(x4)挑战赛中表现出色。我们的源代码可在https://github.com/ming053l/DRCT获取。
扩散模型长期以来一直受到可扩展性和二次复杂度问题的困扰,尤其是在基于Transformer的结构中。本研究旨在利用名为Mamba的状态空间模型的长序列建模能力,将其应用扩展到视觉数据生成。首先,我们确定了大多数当前基于Mamba的视觉方法中的一个关键疏忽,即缺乏对Mamba扫描方案中空间连续性的考虑。其次,基于这一见解,我们引入了一种简单、即插即用、零参数的方法,称为Zigzag Mamba,它优于基于Mamba的基线,并且与基于Transformer的基线相比,展示了改进的速度和内存利用率。最后,我们将Zigzag Mamba与随机插值框架集成,以研究该模型在大分辨率视觉数据集(例如FacesHQ $1024\times 1024$和UCF101、MultiModal-CelebA-HQ以及MS COCO $256\times 256$)上的可扩展性。代码将发布在https://taohu.me/zigma/。
现有评估大型语言模型 (LLM) 推理能力的方法主要以结果为中心,难以全面评估推理过程。我们提出了一种新方法,使用抽象与推理语料库 (ARC) 基准以过程为中心的方式评估 LLMs 的推理和上下文理解能力,重点关注思维语言假说 (LoTH) 的三个关键组成部分:逻辑连贯性、组合性和生产力。我们精心设计的实验表明,虽然 LLMs 表现出一定的推理能力,但在这三个方面仍远落后于人类水平的推理。本文的主要贡献在于引入了 LoTH 的视角,这提供了一种评估推理过程的方法,而传统的结果导向方法无法捕捉到这一点,从而为人工智能系统中人类水平推理的发展提供了新的见解。
故障检测与诊断 (FDD) 是确保工业过程安全和效率的关键任务。我们针对田纳西伊士曼过程 (TEP)——一种广泛使用的化工过程控制基准——提出了一种新颖的 FDD 方法。该模型采用两个独立的 Transformer 分支,能够独立处理输入数据并提取多样化的信息。我们引入了一种新颖的注意力机制,即门控动态可学习注意力 (GDLAttention),它集成了门控机制和动态学习能力。门控机制调节注意力权重,使模型能够关注输入中最相关的部分。动态学习方法在训练过程中调整注意力策略,从而可能提高性能。该注意力机制使用双线性相似度函数,在捕获查询向量和键向量之间复杂关系方面提供了更大的灵活性。为了评估我们方法的有效性,我们针对 TEP 中的 21 个和 18 个不同的故障场景对其进行了测试,并将它的性能与几种已建立的 FDD 技术进行了比较。结果表明,该方法在准确性、误报率和误分类率方面均优于其他方法。这突显了该方法在复杂工业过程 FDD 中的鲁棒性和有效性。
人工智能系统不断增长的计算需求导致了服务的出现,这些服务代表缺乏必要资源的客户进行模型训练。然而,确保训练的正确性并防范潜在的训练时攻击(例如数据投毒和后门)带来了挑战。现有的可验证训练工作主要分为两类:基于证明的系统(难以扩展)和“乐观”方法(考虑可以复制训练过程并对训练者提出异议的第三方审计者)。后者的一个关键挑战是训练过程中 GPU 类型之间的非确定性阻止了训练过程的精确复制,导致方案缺乏鲁棒性。我们提出了一种方法,该方法将以高于目标精度的精度进行训练,在中间计算后进行舍入,并基于自适应阈值过程共享舍入决策,以成功控制非确定性。在三种不同的 NVIDIA GPU(A40、Titan XP、RTX 2080 Ti)上,我们实现了 ResNet-50(23M)和 GPT-2(117M)模型的完整训练和微调在 FP32 精度下的精确训练复制。与基于证明的系统相比,我们的可验证训练方案显着降低了存储和时间成本,并在 https://github.com/meghabyte/verifiable-training 公开发布。
模仿学习方法需要大量的人工监督才能学习出对物体姿态变化、物理干扰和视觉干扰具有鲁棒性的策略。另一方面,强化学习可以自主探索环境以学习鲁棒的行为,但可能需要不切实际的大量不安全现实世界数据的收集。为了在无需大量不安全现实世界数据收集或大量人工监督的情况下学习高性能、鲁棒的策略,我们提出了 RialTo,这是一个利用从少量现实世界数据动态构建的“数字孪生”模拟环境中的强化学习来增强现实世界模仿学习策略鲁棒性的系统。为了实现这个现实到模拟到现实的流程,RialTo 提出了一个易于使用的接口,用于快速扫描和构建现实世界环境的数字孪生体。我们还引入了一种新颖的“逆向蒸馏”程序,用于将现实世界演示引入模拟环境以进行高效微调,所需的人工干预和工程设计最少。我们在现实世界中针对各种机器人操作问题(例如,稳固地将盘子堆放在架子上、将书放在架子上以及其他六项任务)评估了 RialTo。RialTo 将策略鲁棒性提高了(超过 67%),而无需大量的人工数据收集。项目网站和视频请访问 https://real-to-sim-to-real.github.io/RialTo/
基于文本的图像生成模型能够生成高质量的人物图像,但在生成手部图像时,真实感会降低。常见的瑕疵包括不规则的手部姿势、形状、手指数量错误以及物理上不可信的手指方向。为了生成具有逼真手的图像,我们提出了一种新颖的基于扩散的架构,称为 HanDiffuser,它通过在生成过程中注入手部嵌入来实现真实感。HanDiffuser 包含两个组件:一个文本到手部参数扩散模型,用于根据输入文本提示生成 SMPL-Body 和 MANO-Hand 参数;以及一个文本引导的手部参数到图像扩散模型,用于通过根据先前组件生成的提示和手部参数来合成图像。我们结合了手部表示的多个方面,包括 3D 形状和关节级手指位置、方向和关节,以实现鲁棒的学习和可靠的推理性能。我们进行了广泛的定量和定性实验,并进行了用户研究,以证明我们的方法在生成具有高质量手的图像方面的有效性。
尽管经过广泛的研究,对噪声数据的时序分类和预测仍然极具挑战性。主要困难在于寻找合适的数学概念来描述时间序列,并有效地将噪声与真实信号分离。与将时间序列视为静态向量或固定序列的传统方法不同,我们提出了一种新颖的框架,该框架将每个时间序列(无论长度如何)视为连续时间随机过程的实现。这种数学方法能够捕捉时间戳之间的依赖关系,并检测噪声中隐藏的、随时间变化的信号。然而,现实世界的数据通常涉及多种不同的动态,因此仅用单个随机模型对整个过程进行建模是不够的。为了解决这个问题,我们为每个动态分配一个唯一的特征向量,并引入“信息量最大的时间戳”的概念,以从这些向量中推断出单个动态的稀疏近似。由此产生的模型,称为Motion Code,包含能够以集成方式完全捕捉不同潜在动态的参数,从而能够同时进行时间序列的分类和预测。在包括真实世界帕金森病传感器追踪在内的噪声数据集上进行的大量实验表明,Motion Code 在时间序列分类和预测方面比已建立的基准具有更强的性能。
这项研究提出了一种新颖的神经渲染方法,专门针对对抗性伪装,并在一个广泛的3D渲染框架内实现。我们的方法,名为FPA,超越了传统技术,它忠实地模拟了光照条件和材料变化,确保了对3D目标纹理细致且真实的表示。为此,我们采用了一种生成式方法,从扩散模型中学习对抗性模式。这包括结合专门设计的对抗性损失和隐蔽约束损失,以保证伪装在物理世界中的对抗性和隐蔽性。此外,我们展示了所提出的贴纸模式伪装的有效性,证明了其在不影响对抗性信息的情况下覆盖目标的能力。通过实证和物理实验,FPA在攻击成功率和迁移性方面表现出强大的性能。此外,设计的贴纸模式伪装,结合隐藏约束,能够适应环境,产生多种纹理风格。我们的研究结果突出了FPA方法在对抗性伪装应用中的多功能性和有效性。