arXiv:2412.03283v2 宣布类型: 替换-交叉
摘要:将水印集成到潜扩散模型(LDMs)的生成过程中,简化了生成内容的检测和归属。语义水印,如树轮和高斯阴影,代表了一种新颖的水印技术类别,易于实现且对各种扰动具有高度的鲁棒性。然而,我们工作的研究表明语义水印存在根本的安全漏洞。我们展示了攻击者可以利用与其无关的模型,即使这些模型具有不同的潜空间和架构(UNet vs DiT),来进行强大且逼真的伪造攻击。具体来说,我们设计了两种水印伪造攻击。第一种通过操纵一个任意图像在无关LDM中的潜表示,使其更接近带有水印图像的潜表示,从而在真实图像中嵌入目标水印。我们还展示了这种技术可以用于水印去除。第二种攻击通过对带有水印的图像进行逆生成并使用任意提示重新生成,生成带有目标水印的新图像。这两种攻击只需要一张带有目标水印的参考图像。总体而言,我们的发现质疑了语义水印的应用性,因为攻击者在现实条件下可以轻松地伪造或去除这些水印。
arXiv:2412.01814v2 更新类型: 替换-交叉
摘要:使用对比损失训练的视觉-语言模型 (VLM) 在各种视觉和语言任务中取得了显著的进展。然而,对比损失的全球性质导致 VLM 主要关注前景物体,忽视了图片中的其他重要信息,这限制了它们在下游任务中的效果。为了解决这些挑战,我们提出了 COSMOS:跨模态自蒸馏(Vision-Language 预训练)。COSMOS 结合了一种新颖的文字裁剪策略和跨注意力模块,将其纳入自监督学习框架。我们为视觉语言模型创建了全局和局部视图(即多模态增强),这对于自蒸馏是必不可少的。我们还引入了一个跨注意力模块,使得 COSMOS 能够通过跨模态自蒸馏损失学习全面的跨模态表示。COSMOS 在各种零样本下游任务(包括检索、分类和语义分割)中均优于之前的强大基线。此外,COSMOS 在视觉感知和上下文理解任务中也超过了在更大数据集上训练的 CLIP 模型。代码可以在 https://github.com/ExplainableML/cosmos 获取。
arXiv:2411.17945v2 公告类型: replace-cross
摘要: 由于现有数据集的尺寸有限、多样性和注解深度有限,从文本提示生成高保真3D内容仍然是计算机视觉领域的显著挑战。为了解决这个问题,我们引入了MARVEL-40M+,这是一个包含4000万个文本注解的大规模数据集,这些注解来自七个主要3D数据集中的890万个3D资产。我们的贡献是开发了一种新颖的多阶段注解流水线,该流水线整合开源的多视图VLMs和LLMs,以自动生成多级描述,范围从详细的(150-200词)到简洁的语义标签(10-20词)。这种结构支持精细3D重建和快速原型制作。此外,我们将源数据集中的人类元数据纳入注解流水线,以增加领域特定信息并减少VLM的幻觉。另外,我们开发了MARVEL-FX3D,这是一个两阶段的文本到3D流水线。我们使用我们的注解对Stable Diffusion进行微调,并使用预训练的图像到3D网络在15秒内生成3D纹理网格。广泛的评估显示,MARVEL-40M+在注解质量和语言多样性方面明显优于现有数据集,GPT-4和人工评估者的胜率分别为72.41%和73.40%。项目页面可在https://sankalpsinha-cmos.github.io/MARVEL/ 获取。
arXiv:2411.16627v2 宣布类型: replace-cross
摘要:通过人类示范训练的生成策略可以在多模态、长时任务中自主完成。但在推断过程中,人类通常被排除在策略执行循环之外,限制了引导预训练策略实现特定子目标或轨迹形状的能力。简单的手动干预可能会无意中加剧分布偏移,导致约束违反或执行失败。为了更好地使策略输出与人类意图保持一致,同时避免产生离分布错误,我们提出了一种在推断时间策略导向(ITPS)框架,该框架利用人类互动来偏向生成采样的过程,而不是在交互数据上微调策略。我们在三个模拟和现实世界的基准上评估了ITPS,测试了三种形式的人机交互及其相关的对齐距离度量。在六种采样策略中,我们提出的一种带有扩散策略的随机采样实现了对齐与分布偏移的最佳权衡。更多视频见https://yanweiw.github.io/itps/。
arXiv:2411.16537v3 宣布类型: 替换交叉
摘要:空间理解是使机器人能够感知其周围环境、对其环境进行推理并与其进行有意义交互的关键能力。在现代机器人技术中,这些能力越来越依赖于视觉-语言模型。然而,这些模型在空间推理任务中面临重大挑战,因为它们的训练数据基于通用图像数据集,这些数据集通常缺乏复杂的空间理解。例如,数据集往往未能捕捉到参考框架的理解,而高效的 spatial 推理需要理解是从自我中心、世界中心还是对象中心的视角进行推理。为了解决这一问题,我们引入了 RoboSpatial,这是一个大规模的用于机器人空间理解的数据集。它包括真实的室内和台面场景,这些场景被捕捉为 3D 扫描和自我中心图像,并注释了与机器人相关的丰富空间信息。该数据集包含 100 万张图像、5000 个 3D 扫描和 300 万个注释的空间关系,并将 2D 自我中心图像与 3D 扫描配对使其既适用于 2D 也适用于 3D。我们的实验表明,使用 RoboSpatial 训练的模型在诸如空间可利用性预测、空间关系预测和机器人操作等下游任务上优于基线模型。
arXiv:2411.16425v2 宣告类型: 替换-交叉
摘要: 零样本物体导航 (ZSON) 任务要求嵌入式代理通过在不熟悉环境中导航来找到以前未见过的物体。这种以目标为导向的探索很大程度上依赖于对环境空间信息的感知、理解和推理。然而,当前基于大语言模型的方法将视觉观察转换为语言描述并在语言空间中进行推理,导致空间信息的丢失。在本文中,我们引入了 TopV-Nav,这是一种基于多大语言模型的方法,可以直接在包含充足空间信息的正视图地图上进行推理。为了充分利用 Top-view 角度下多大语言模型的空间推理潜力,我们提出了自适应视觉提示生成 (AVPG) 方法,以自适应地构建语义丰富的正视图地图。这使得代理可以直接利用正视图地图中包含的空间信息进行深入推理。此外,我们设计了一种动态地图缩放 (DMS) 机制,可以动态地在优选尺度下缩放正视图地图,增强局部精细推理。另外,我们设计了一种以潜在目标驱动 (PTD) 机制来预测和利用目标位置,促进全局和类人探索。在 MP3D 和 HM3D 数据集上的实验表明,我们的 TopV-Nav 具有优越性。
arXiv:2411.14550v2 宣告类型: replace-cross
摘要:在当前的数字时代,由各种网络活动生成的数据量变得巨大且不断增长。这些数据可能包含有价值的见解,可以被用来提高网络安全措施。然而,其中大部分数据是未分类的和定性的,这对传统分析方法提出了重大挑战。聚类通过将相似的数据点分组来识别数据中的隐藏模式和结构,从而简化了对威胁的识别和应对。聚类可以定义为数据挖掘(DM)方法,它利用相似性计算将数据集划分为多个类别。常见的聚类算法有层次聚类、基于密度的聚类和划分聚类算法。本研究使用了K-means算法,这是一种常见的聚类技术。通过使用K-means算法,我们处理了两种不同类型的数据:首先,我们使用XG-boost算法进行了数据聚合,之后使用K-means算法收集数据。数据是通过Kali Linux环境、cicflowmeter流量和Putty软件工具以及各种简单的攻击收集的。这个概念可以帮助识别与已知攻击类型不同的新攻击类型,并根据它们所表现出的特征对它们进行标记,因为网络威胁的动态性意味着经常会涌现出新的攻击类型,而这些攻击类型可能尚未有标记的数据。模型统计了攻击数量并将每个攻击分配了一个数字。其次,我们在Kaggle存储库中的名为(Intrusion Detection in Internet of Things Network)的现成数据上进行了同样的工作,聚类模型表现良好,正确检测了攻击的数量,如结果部分所示。
arXiv:2411.11706v3 公告类型: 替换-交叉
摘要:当前的视觉-语言模型(VLMs)在诸如视觉问答等多样化的任务中显示出卓越的能力。为了提升用户体验,最近的研究探讨了VLM的个性化,以理解用户提供的概念。然而,这些研究主要集中在单概念个性化上,忽视了多个概念的存在及其相互作用,这限制了其在现实世界中的应用。本文提出了一种全新的多概念个性化范式,即MC-LLaVA。具体而言,MC-LLaVA采用了一种多概念指令微调策略,有效地在单一训练步骤中整合了多个概念。为了降低联合训练相关的成本,我们提出了一种个性化的文本提示,该提示使用视觉标记信息来初始化概念标记。此外,在推理过程中,我们引入了个性化的视觉提示,通过聚合位置置信图来增强识别能力和定位能力。为了推进多概念个性化研究,我们进一步贡献了一个高质量的指令微调数据集。我们仔细收集了来自电影的多个人物和对象的图像,并人工生成了多概念场景下的问题-答案样本,这些样本具有更高的多样性。全面的定性和定量实验表明,MC-LLaVA能够实现令人印象深刻的多概念个性化响应,为使VLMs成为更好的用户特定助手铺平了道路。代码和数据集将在 https://github.com/arctanxarc/MC-LLaVA 公开可获取。
arXiv:2411.05809v2 类型: replace-cross
摘要:当个体遇到违反其预期的观察时,他们会何时调整其预期,何时会尽管这些观察而保持这些预期?例如,当个体认为类型A的对象比类型B的对象小,但观察到相反的情况时,他们会何时调整对两者之间关系的预期(即认为A比B大)?初看起来,违反程度越大,适应性就越大。然而,实验表明,当违反程度极端时,个体更有可能保持其先验预期而不是调整它们。为了解释这一现象,我们测试了能够进行关系学习的人工神经网络(ANN),发现了类似的现象:标准的学习动态规定,小的违反会导致预期关系的变化,而大的违反则通过改变对象表示的方法来解决——一种绕过关系预期适应的机制。这些结果表明,实验中观察到的面对大预期违反时先验预期的稳定性是学习动态的自然结果,不需要任何额外的机制。最后,我们讨论了中间适应步骤对这种稳定性的影响。
arXiv:2410.17579v5 宣告类型: replace-cross
摘要:图凝聚已成为一种有希望的方法,通过压缩训练数据集以保留关键的图特性,从而实现大规模训练GNNs。我们的研究揭示了当前图凝聚技术中的重大不足。首先,大多数算法出乎意料地需要在完整数据集上进行训练才能执行凝聚。其次,由于它们采用梯度模拟方法,这些方法要求对任何超参数或GNN架构的改变都进行新的凝聚,这限制了其灵活性和再利用性。最后,由于生成完全连接、带有边权重的图,它们未能实现显著的规模缩减。为了解决这些挑战,我们提出了一种名为Bonsai的新颖图凝聚方法,该方法基于观察到的计算树是消息传递GNN的基本处理单元。Bonsai通过编码训练集中所有计算树的精心选择的示例树来压缩数据集,从而最大化表示所有计算树。这一独特方法使Bonsai成为首个在节点分类任务上优于现有基线的线性时间、模型无关的图凝聚算法,可在7个真实数据集上实现更高的准确率,并且平均快22倍。Bonsai基于采用的近似策略的严格数学保证,使其在GNN架构、数据集和参数方面具有鲁棒性。