本文介绍了一个名为 Robo-CSK-Organizer 的系统,该系统将常识知识从经典知识库中注入,以增强机器人的上下文识别能力,从而通过以任务相关的方式对检测到的物体进行分类来促进物体的组织。它在多用途机器人中特别有用。与仅依赖 ChatGPT 等深度学习工具的系统不同,Robo-CSK-Organizer 系统在以下多个方面脱颖而出。它很好地解决了歧义,并保持了物体放置的一致性。此外,它适应各种基于任务的分类。此外,它有助于可解释的 AI,从而有助于提高信任和人机协作。在我们工作中进行的受控实验模拟了家庭机器人环境,使 Robo-CSK-Organizer 在将物体放置在上下文相关的区域时表现出优异的性能。这项工作突出了基于 AI 的系统在机器人领域进行常识引导的决策的能力,更接近人类认知的阈值。因此,Robo-CSK-Organizer 对 AI 和机器人学产生了积极的影响。
基于潜在变量的生成模型,例如生成对抗网络 (GAN) 和变分自编码器 (VAE),由于其在许多领域展现出的出色性能而获得了广泛关注。然而,许多数据,例如自然图像,通常并不填充环境欧几里得空间,而是位于一个低维流形中。因此,对潜在维度的选择不当会导致无法揭示数据的结构,可能导致潜在表示不匹配,生成质量低下。为了解决这些问题,我们提出了一种名为潜在 Wasserstein GAN (LWGAN) 的新框架,该框架融合了 Wasserstein 自编码器和 Wasserstein GAN,以便通过修改后的信息潜在分布自适应地学习数据流形的内在维度。我们证明存在编码网络和生成网络,使得学习到的编码分布的内在维度等于数据流形的维度。我们从理论上证明,我们估计的内在维度是数据流形真实维度的相容估计。同时,我们为 LWGAN 的泛化误差提供了一个上限,这意味着我们从总体角度迫使合成数据分布与真实数据分布相似。全面的实证实验验证了我们的框架,并表明 LWGAN 能够在多种情况下识别正确的内在维度,并通过从学习到的潜在分布中采样同时生成高质量的合成数据。
在人类与物体或人类之间交互导致严重遮挡的情况下,重建3D人体形状是一个极具挑战性的问题。基于人体形状统计的 SMPL(-X) 等参数化模型可以表示整个人体形状,但仅限于穿着最少衣物的身体。基于隐式函数的方法从参数化模型中提取特征,以利用人体先验知识,并能够捕获服装和头发等几何细节。然而,在处理对齐不佳的参数化模型和仅根据单张 RGB 图像修复遮挡区域时,它们往往难以应对。在本文中,我们提出了一种新颖的管道,MHCDIFF,即多假设条件点云扩散,它由条件化于像素对齐的详细 3D 人体重建的概率分布的点云扩散组成,用于处理遮挡。与之前的基于隐式函数的方法相比,点云扩散模型能够捕获全局一致特征以生成遮挡区域,而去噪过程则修正了对齐不佳的 SMPL 网格。MHCDIFF 的核心是从多个假设的 SMPL(-X) 网格中提取局部特征,并将特征集合聚合起来以对扩散模型进行条件化。在 CAPE 和 MultiHuman 数据集上的实验表明,该方法在合成和真实遮挡情况下,优于基于 SMPL、隐式函数、点云扩散及其组合的各种最先进方法。
软件安全事件每天都在发生,每月都会发布数千份软件安全报告。因此,软件安全研究人员、工程师和其他利益相关者很难实时跟踪他们感兴趣的软件安全主题。本文针对这一问题,提出了一种名为SOSK的新工具。SOSK允许用户导入一组软件安全报告。它对报告的文本描述进行预处理并提取最重要的关键词。基于关键词嵌入向量之间的相似性,SOSK可以从用户提供的较小关键词集中扩展和/或细化关键词集。因此,SOSK允许用户定义任何他们感兴趣的主题,并有效地检索与该主题相关的安全报告。初步评估表明,SOSK可以扩展关键词并检索与用户请求相关的报告。
大型语言模型(LLMs)已在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLMs的方法...
无监督域适应 (UDA) 对医学图像分割至关重要,尤其是在跨模态数据场景中。UDA 旨在将知识从带标签的源域转移到无标签的目标域,从而减少对大量手动标注的依赖。本文提出了 DRL-STNet,一个用于跨模态医学图像分割的新框架,该框架利用生成对抗网络 (GAN)、解耦表示学习 (DRL) 和自训练 (ST)。我们的方法在 GAN 中利用 DRL 将图像从源模态转换为目标模态。然后,分割模型最初使用这些转换后的图像和相应的源标签进行训练,然后通过结合合成图像和真实图像以及伪标签和真实标签进行迭代微调。在 FLARE 挑战数据集上的腹部器官分割中,该框架展现出优异的性能,在 Dice 相似性系数方面超过最先进的方法 11.4%,在归一化表面 Dice 度量方面超过 13.1%,分别达到 74.21% 和 80.69% 的得分。平均运行时间为 41 秒,GPU 内存-时间曲线下的面积为 11,292 MB。这些结果表明 DRL-STNet 在增强跨模态医学图像分割任务方面的潜力。
近年来,大型语言模型 (LLM) 在许多自然语言处理 (NLP) 任务中取得了巨大成功。除了认知智能,探索它们在情感智能方面的能力也至关重要,因为它能够实现更自然、更具同理心的对话式 AI。最近的研究表明,LLM 能够识别情绪,但它们往往只关注单一情绪标签,而忽略了人类情绪的复杂性和模糊性。本研究首次通过探索 LLM 在识别模糊情绪方面的潜力来填补这一空白,利用其强大的泛化能力和上下文学习。我们设计了零样本和少样本提示,并将过去的对话作为上下文信息纳入模糊情绪识别。使用三个数据集进行的实验表明,LLM 在识别模糊情绪方面具有巨大潜力,并突出了包含上下文信息的巨大益处。此外,我们的研究结果表明,LLM 在识别不太模糊的情绪方面表现出高度的有效性,并表现出识别更模糊情绪的潜力,与人类感知能力相平行。
机器人探索和学习的能力没有极限,但所有这些知识都需要可搜索和可操作。在语言研究领域,检索增强生成 (RAG) 已成为大规模非参数知识的基石,然而现有的技术无法直接应用于具身领域,因为具身领域是多模态的,数据高度相关,并且感知需要抽象。
为了解决这些挑战,我们引入了 Embodied-RAG,这是一个框架,它通过一个非参数记忆系统增强了具身智能体的基础模型,该系统能够自主地构建用于导航和语言生成的层次化知识。Embodied-RAG 处理跨越不同环境和查询类型的各种空间和语义分辨率,无论是针对特定对象还是环境的整体描述。Embodied-RAG 的记忆的核心结构是一个语义森林,存储不同详细程度的语言描述。这种层次化组织允许系统在不同的机器人平台上高效地生成上下文相关的输出。我们证明了 Embodied-RAG 有效地将 RAG 桥接到机器人领域,成功地处理了跨越 19 个环境的 200 多个解释和导航查询,突出了其作为具身智能体的通用非参数系统的潜力。
数字图像处理技术的演进,尤其是深度生成模型的进步,对现有的深度伪造检测方法提出了重大挑战,尤其是在深度伪造的来源不明确的情况下。为了应对这些伪造技术的日益复杂性,我们提出了**小波-CLIP**,这是一种深度伪造检测框架,它将小波变换与从以CLIP方式预训练的ViT-L/14架构中提取的特征相结合。小波-CLIP利用小波变换对图像的时空特征进行深度分析,从而增强模型检测复杂深度伪造的能力。为了验证我们方法的有效性,我们针对现有最先进方法进行了广泛的评估,以进行跨数据集泛化和检测由标准扩散模型生成的未见图像。我们的方法展现出卓越的性能,在跨数据泛化方面平均AUC达到0.749,在对抗未见深度伪造方面鲁棒性达到0.893,优于所有比较方法。代码可以在以下仓库中复现:\url{https://github.com/lalithbharadwajbaru/Wavelet-CLIP}
我们提出了一种名为 SOAR 的新型无人机航拍视频自监督预训练算法。我们在整个预训练过程中融入人类目标知识,以提高无人机视频预训练效率和下游动作识别性能。这与之前主要在微调阶段融入目标信息的工作形成对比。具体来说,我们首先提出了一种新颖的目标感知掩码策略,旨在在整个预训练阶段保持与目标相关的某些补丁的可见性。其次,我们引入了一种目标感知损失函数,利用目标信息来调整重建损失,防止偏向信息量较小的背景补丁。在实践中,SOAR 使用普通 ViT 主干网络,优于最佳的无人机动作识别模型,在 NEC-Drone 和 UAV-Human 数据集上分别提高了 9.7% 和 21.4% 的 top-1 准确率,同时推理速度为每视频 18.7 毫秒,速度提升 2 倍到 5 倍。此外,SOAR 在与先前的自监督学习 (SSL) 方法取得相当的准确率的同时,预训练时间减少了 87.5%,内存使用量减少了 25%。