我们提出了 CaLMFlow(用于流匹配的因果语言模型),这是一个新颖的框架,它将流匹配转换为 Volterra 积分方程 (VIE),利用大型语言模型 (LLMs) 的强大功能来生成连续数据。CaLMFlow 能够通过将流匹配制定为序列建模任务,将离散语言建模和连续生成式建模桥接起来,从而直接将 LLMs 应用于学习复杂流。我们的方法在空间和时间上实现了标记化,从而在这些领域上解决了 VIE。这种方法能够有效地处理高维数据,并且优于依赖 ODE 求解器的算法,例如条件流匹配 (CFM)。我们在合成数据和真实世界数据上证明了 CaLMFlow 的有效性,包括单细胞扰动响应预测,展示了它能够整合文本上下文并推广到未见过的条件。我们的结果表明,由 LLM 驱动的流匹配是生成式建模中一个很有前途的范式,它提供了更好的可扩展性、灵活性和上下文感知能力。
神经后门是一种隐蔽的网络安全漏洞,它使学习机器容易受到未经
密集特征对于检测图像中的微小物体至关重要。然而,尽管 CNN 模型在多尺度目标检测方面具有显著的有效性,但由于池化过程中的密集特征丢失,CNN 模型通常无法检测图像中的较小物体。空洞卷积通过应用稀疏内核来解决这个问题。然而,稀疏内核通常会导致 CNN 模型的多尺度检测效能下降。在本文中,我们提出了一种基于 EfficientDet 模型的可切换(自适应)空洞卷积网络(SAC-Net)的目标检测模型。固定的空洞率限制了 CNN 模型在卷积层中的性能。为了克服这一限制,我们引入了一种可切换机制,允许在正向传递期间动态调整空洞率。所提出的 SAC-Net 集成了低级特征和高级特征的优点,从而在不丢失密集特征的情况下,在多尺度目标检测任务中取得了更好的性能。此外,我们将深度可切换空洞率应用于所提出的网络,以改善尺度不变特征。最后,我们将全局上下文应用于所提出的模型。我们在基准数据集上的大量实验表明,所提出的 SAC-Net 在准确性方面显著优于最先进的模型。
大型视觉-语言-动作 (VLA) 模型利用强大的预训练视觉-语言模型 (VLMs) 后端,在机器人控制方面展现出巨大潜力,得益于其出色的泛化能力。然而,这种成功也伴随着代价。它们对拥有数十亿参数的 VLM 后端的依赖导致了高昂的计算成本和推理延迟,将测试场景限制在主要为准静态任务,并阻碍了在需要快速交互的动态任务中的性能。为了解决这些限制,本文提出了 HiRT,一种分层机器人 Transformer 框架,它能够灵活地权衡频率和性能。HiRT 使 VLMs 以低频率运行以捕获暂时不变的特征,同时通过由缓慢更新的特征引导的高频视觉策略实现实时交互。仿真和真实世界环境中的实验结果表明,与基线方法相比,HiRT 取得了显著改进。在静态任务中,我们使控制频率翻倍,并取得了相当的成功率。此外,在以前 VLA 模型难以处理的新型真实世界动态操作任务中,HiRT 将成功率从 48% 提高到 75%。
复杂逻辑查询问答(CLQA)是一个具有挑战性的任务,它涉及在不完整知识图谱(KGs)上找到复杂逻辑查询的答案实体。以往的研究探索了使用预训练的知识图谱补全(KGC)模型来回答复杂逻辑查询,这些模型可以预测 KG 中缺失的事实。然而,KGC 模型通常使用排序评估指标进行评估,这可能导致 KGC 模型预测值的校准不佳。在本文中,我们提出了一种校准 KGC 模型的方法,即 CKGC,它使 KGC 模型能够适应回答复杂逻辑查询。值得注意的是,CKGC 轻量级且有效。适应函数很简单,允许模型在适应过程中快速收敛。CKGC 的核心概念是将 KGC 模型预测值的范围映射到 [0, 1],确保与真实事实相关的值为接近 1,而与虚假事实相关的值为接近 0。通过对三个基准数据集的实验,我们证明了我们提出的校准方法可以显著提高 CLQA 任务中的模型性能。此外,我们的方法可以提高 CLQA 的性能,同时保留 KGC 模型的排序评估指标。代码可在 https://github.com/changyi7231/CKGC 获取。
本文关注一个被忽视但至关重要的任务:Graph2Image,即从多模态属性图 (MMAG) 生成图像。由于图尺寸爆炸、图实体之间的依赖关系以及对图条件的可控性需求,该任务面临着重大挑战。为了应对这些挑战,我们提出了一种名为 InstructG2I 的基于图上下文条件的扩散模型。InstructG2I 首先利用图结构和多模态信息,通过结合个性化 PageRank 和基于视觉语言特征的重新排序来进行信息丰富的邻居采样。然后,一个 Graph-QFormer 编码器自适应地将图节点编码成一组辅助图提示,以指导扩散的去噪过程。最后,我们提出了无分类器图引导,通过改变图引导的强度以及连接到节点的多个连接边来实现可控生成。在三个来自不同领域的数据集上进行的大量实验表明了我们方法的有效性和可控性。代码可在 https://github.com/PeterGriffinJin/InstructG2I 获取。
我们关注目标导向型智能体,它们在决策时规划过程中会生成目标,以指导其行为并在评估期间实现更好的泛化能力。这些智能体的训练不当会导致妄想:智能体可能会对目标持有错误的信念,无法得到有效纠正,从而导致不良行为和损害分布外泛化能力。我们通过在精心控制的环境中使用直观的示例来识别不同类型的妄想,并调查其原因。我们展示了如何解决通过事后重新标记训练的智能体的妄想问题,事后重新标记是训练目标导向型强化学习智能体的主流方法。我们在实证上验证了所提解决方案在纠正妄想行为和提高分布外泛化能力方面的有效性。
人工智能安全已成为人工智能界内外众多科学家的首要关注点。从对人类存在的生存风险到深度伪造和机器学习系统中的偏差,存在许多即时和长期的预期风险 [1-5]。在本文中,我们将人工智能安全问题的全部范围和巨大复杂性简化为三部曲,即三个重要但易于处理的机遇,这些机遇具有短期内提高人工智能安全性和可靠性的潜力,而不会降低人工智能在关键领域的创新。从这个角度来看,我们讨论了这个愿景,它基于几个案例研究,这些案例研究已经在生物医学科学的关键机器学习应用中产生了概念验证。