随着人工智能(AI)在研究领域的日常生活中得到广泛应用,我们将目光转向一个似乎不适合概率决策的应用领域:形式化方法(FM)。形式化方法旨在为计算机科学中的问题提供可靠且易于理解的推理,这似乎与许多AI方法所具有的“黑盒”特性相冲突。然而,许多研究人员已经跨越了这一鸿沟,并应用AI技术来增强形式化方法。由于形式化方法和人工智能的这种二元性激发了我们的兴趣,我们进行了一项系统性文献综述研究,以绘制当前研究现状图谱。在这项研究中,我们将调查过去五年(2019-2023年)将人工智能应用于形式化方法的研究,因为这些时期对应着高活跃度时期。这项调查得出了189篇论文,我们将更详细地探讨这些论文,以发现当前趋势,突出研究差距,并为未来的研究提供建议。
在具身智能系统中,三维感知算法是关键组成部分,使智能体能够理解其周围环境。以往的算法主要依赖于点云,尽管点云提供了精确的几何信息,但由于其固有的稀疏性、噪声和数据稀缺性,仍然限制了感知性能。在这项工作中,我们引入了一种新颖的以图像为中心的3D感知模型BIP3D,该模型利用具有显式3D位置编码的表达性图像特征来克服以点为中心的 方法的局限性。具体来说,我们利用预训练的二维视觉基础模型来增强语义理解,并引入空间增强模块来改进空间理解。这些模块共同使BIP3D能够实现多视图、多模态特征融合和端到端的三维感知。在我们的实验中,BIP3D在EmbodiedScan基准测试中超越了当前最先进的结果,在3D检测任务中提高了5.69%,在3D视觉定位任务中提高了15.25%。
扩散模型 (DM) 能够从噪声生成图像并从数据中进行反演,已催生出强大的非配对图像到图像 (I2I) 翻译算法。然而,它们通常需要大量的神经网络函数评估 (NFE),限制了其实际应用。本文利用薛定谔桥 (SB) 来解决这个问题,薛定谔桥是具有最小传输成本的分布之间的随机微分方程 (SDE)。我们分析了 SB 的概率流常微分方程 (ODE) 公式,并观察到可以将其向量场分解为源预测器、目标预测器和噪声预测器的线性组合。受此观察的启发,我们提出了潜在薛定谔桥 (LSB),它通过预训练的稳定扩散来逼近 SB ODE,并开发了合适的提示优化和变量变换公式,以匹配分布之间的训练和推理。我们证明了我们的算法能够在无监督设置下成功地进行具有竞争力的 I2I 翻译,而计算成本仅为以往基于 DM 的 I2I 方法所需的一小部分。
基于三维高斯 splatting 的迭代可流式四维动态空间重建方法。现有方法主要依赖于处理完整的多视角视频进行四维重建,而对能够进行即时训练和逐帧流处理的迭代在线重建方法的探索有限。现有的基于三维高斯 splatting 的流式方法统一处理高斯基元并不断更新致密化的高斯,忽略了动态特征和静态特征之间的差异,也忽略了场景中的时间连续性。为了解决这些限制,我们提出了一种用于迭代可流式四维动态空间重建的新型三阶段流水线。我们的流水线包括一个选择性继承阶段以保持时间连续性,一个动态感知位移阶段以区分动态和静态基元并优化其运动,以及一个误差引导致密化阶段以适应新出现的物体。我们的方法在在线四维重建方面取得了最先进的性能,在即时训练速度方面提高了 20%,具有更优的表示质量和实时渲染能力。
对抗性音频攻击对大型语言模型 (LLM) 在基于语音的人机交互中的日益广泛应用构成了重大威胁。虽然现有研究主要集中在特定模型的对抗性方法上,但实际应用需要一种更具泛化能力和普适性的音频对抗攻击方法。本文介绍了聊天音频攻击 (CAA) 基准,其中包括四种不同类型的音频攻击,旨在探索 LLM 在对话场景中对这些音频攻击的漏洞。为了评估 LLM 的鲁棒性,我们提出了三种评估策略:标准评估,利用传统指标量化模型在攻击下的性能;基于 GPT-4o 的评估,模拟现实世界对话的复杂性;以及人工评估,提供对用户感知和信任的见解。我们使用三种不同的评估方法对 CAA 基准上的六个具有语音交互能力的最新 LLM(包括 Gemini-1.5-Pro、GPT-4o 等)进行了评估。我们的综合分析揭示了四种类型的音频攻击对这些模型性能的影响,表明 GPT-4o 表现出最高的弹性。
大型视觉语言模型 (LVLMs) 的快速发展展现出巨大的潜力,这些模型越来越能够处理抽象的视觉任务。几何结构,特别是具有内在灵活性和复杂性的图,是评估这些模型预测能力的极佳基准。虽然人类观察者可以轻松识别细微的视觉细节并进行准确的分析,但我们的研究表明,最先进的LVLMs在特定的视觉图场景中表现出持续的局限性,尤其是在面对风格变化时。为了应对这些挑战,我们引入了VisGraphVar(视觉图变异性),这是一个可定制的基准生成器,能够为七个不同的任务类别(检测、分类、分割、模式识别、链接预测、推理、匹配)生成图图像,旨在系统地评估单个LVLMs的优缺点。我们使用VisGraphVar生成990张图图像并评估六个LVLMs,采用两种不同的提示策略,即零样本和思维链。研究结果表明,图像视觉属性(例如,节点标记和布局)的变化以及故意包含视觉缺陷(例如,节点重叠)会显著影响模型性能。这项研究强调了在图相关任务中进行全面评估的重要性,而不仅仅是推理。VisGraphVar提供了宝贵的见解,可以指导开发更可靠、更强大的系统,从而能够执行高级视觉图分析。
表征领域对于分析动态环境的模型至关重要,因为它允许模型适应不断变化的条件,或者在面临超出其运行领域的条件时将任务移交给备份系统。现有的解决方案通常通过解决回归或分类问题来表征领域,这限制了它们的适用性,因为它们只提供了对领域的有限总结性描述。在本文中,我们提出了一种通过将领域表征为概率分布来表征领域的新方法。特别是,我们开发了一种方法,通过使用归一化流估计物理参数的分布来预测车辆安装摄像机拍摄的图像中不同天气条件的可能性。为了验证我们提出的方法,我们在自动驾驶汽车的背景下进行了实验,重点是预测天气参数的分布以表征运行领域。该领域由物理参数(绝对表征)和任意预定义的领域(相对表征)来表征。最后,我们通过将目标领域与多个已建立安全性的源领域进行比较,来评估系统是否可以在目标领域安全运行。这种方法具有巨大的潜力,因为准确的天气预报和有效的领域自适应对于自动系统适应动态环境条件至关重要。
基于联合嵌入预测架构的去噪模型(D-JEPA),一个自回归模型,在条件类别图像生成方面表现出色。然而,在高分辨率文本到图像生成中应用下一个token预测仍未得到充分探索。本文介绍了D-JEPA·T2I,它是D-JEPA的扩展,结合了流匹配损失,旨在实现数据高效的连续分辨率学习。D-JEPA·T2I利用多模态视觉Transformer有效地整合文本和视觉特征,并采用视觉旋转位置嵌入(VoPE)来促进连续分辨率学习。此外,我们设计了一种数据反馈机制,显著提高了数据利用效率。我们首次通过下一个token预测实现了最先进的**高分辨率**图像合成。实验代码和预训练模型将在\url{https://d-jepa.github.io/t2i}开源。
多模态强化学习人类反馈 (RLHF) 通常在监督微调 (SFT) 阶段之后进行,以持续改进视觉语言模型 (VLM) 的理解能力。传统观点认为,在这一偏好对齐阶段,它优于持续的 SFT。本文观察到,多模态 RLHF 的内在价值在于其负监督,即被拒绝响应的 logits。因此,我们提出了一种新颖的负监督微调 (nSFT) 方法,该方法充分挖掘了这些信息。我们的 nSFT 解开了 RLHF 范式中的这种负监督,并通过简单的 SFT 损失持续地与 VLM 对齐。这比多模态 RLHF 更节省内存,后者严格要求 2 个(例如,DPO)或 4 个(例如,PPO)大型 VLM。通过跨不同数据集来源、基础 VLM 和评估指标与各种多模态 RLHF 方法进行比较,严格证明了 nSFT 的有效性。此外,还提供了丰富的消融实验来支持我们的假设。我们希望本文能够激励进一步的研究,以正确地对齐大型视觉语言模型。
大型视觉语言模型 (LVLMs) 的发展显著提高了多模态理解能力,然而,由于高质量、大规模数据集的稀缺,视频推理任务仍然面临挑战。现有的视频问答 (VideoQA) 数据集往往依赖于成本高昂的手动标注,粒度不足,或者依赖于冗余的逐帧分析的自动构建方法,限制了其在复杂推理中的可扩展性和有效性。为了解决这些挑战,我们引入了 VideoEspresso,这是一个新颖的数据集,它包含保留了基本空间细节和时间连贯性的 VideoQA 对,以及中间推理步骤的多模态标注。我们的构建流程采用了一种语义感知方法来减少冗余,然后使用 GPT-4o 生成 QA 对。我们进一步开发了视频思想链 (CoT) 标注来丰富推理过程,指导 GPT-4o 从 QA 对和视频内容中提取逻辑关系。为了利用高质量 VideoQA 对的潜力,我们提出了一种混合 LVLMs 协作框架,该框架包含一个帧选择器和一个两阶段指令微调推理 LVLM。该框架自适应地选择核心帧,并使用多模态证据进行 CoT 推理。在针对 9 个流行 LVLMs 的 14 个任务的基准测试中,我们的方法在大多数任务上都优于现有基线,证明了其卓越的视频推理能力。我们的代码和数据集将发布在:https://github.com/hshjerry/VideoEspresso