准确地识别重新访问的场所对于具身代理的定位和导航至关重要。这需要视觉表示能够区分不同,尽管相机视角和场景外观存在很大差异。现有的视觉场所识别管道对“整个”图像进行编码并搜索匹配项。这在匹配从不同相机视角拍摄的同一场所的两个图像时带来了一个基本挑战:“重叠部分的相似性可能被非重叠部分的差异所掩盖”。我们通过对“图像片段”进行编码和搜索而不是整个图像来解决这个问题。我们建议使用开放集图像分割将图像分解为“有意义”的实体(即,事物和东西)。这使我们能够创建一种新的图像表示,它是一组连接片段与其相邻片段的多个重叠子图的集合,称为超级片段。此外,为了将这些超级片段有效地编码为紧凑的向量表示,我们提出了一种新的特征聚合因式分解表示。我们表明,检索这些部分表示会导致比典型的基于整个图像的检索更高的识别召回率。我们的基于片段的方法,称为 SegVLAD,在各种基准数据集上的场所识别方面建立了新的技术水平,同时适用于通用和特定于任务的图像编码器。最后,我们通过评估我们方法在对象实例检索任务上的表现来证明了我们方法“重新访问任何事物”的潜力,该任务通过它们共同的目标(识别特定于场所的目标对象)将视觉场所识别和对象目标导航这两个截然不同的研究领域联系起来。源代码:https://github.com/AnyLoc/Revisit-Anything.
本文提出了一种新型的多机器人规划与协作方法。我们展示了一种人类-机器人团队中机器人的认知策略,该策略整合了元认知、自然语言交流和可解释性。该系统使用 HARMONIC 架构来实现,该架构灵活地整合了团队中认知和控制能力。我们通过模拟实验评估了我们的方法,实验涉及由异构机器人(无人地面车辆和无人机)和人类组成的团队执行联合搜索任务。我们详细介绍了该系统在处理复杂现实场景、有效协调不同能力的机器人之间的行动以及实现自然的人机交流方面的能力。这项工作证明了机器人能够对计划、目标和态度进行推理,并为行动和决策提供解释,这些能力是现实人类-机器人协作的必要先决条件。
近年来,图像字幕领域的研究探索了纯文本训练方法,以克服成对图像文本数据带来的限制。然而,现有的纯文本训练方法往往忽略了训练阶段使用文本数据和推理阶段使用图像之间存在的模态差距。为了解决这个问题,我们提出了一种名为“图像类检索”的新方法,该方法将文本特征与视觉相关特征对齐,以减轻模态差距。我们的方法通过设计一个融合模块,将检索到的字幕与输入特征相结合,进一步提高了生成字幕的准确性。此外,我们还引入了一种基于频率的实体过滤技术,显著提高了字幕质量。我们将这些方法整合到一个统一的框架中,我们称之为 IFCap(图像类检索和基于频率的实体过滤用于零样本字幕)。通过大量的实验,我们简单而强大的方法证明了其有效性,在图像字幕和视频字幕方面,与基于纯文本训练的零样本字幕相比,我们的方法在性能上取得了显著的提升。
我们提出 HARMONIC,一个用于实现认知机器人的框架,该框架将通用机器人转变为能够进行复杂决策、自然交流和人类水平解释的可靠队友。该框架支持战略(认知)层(用于高级决策)和战术(机器人)层(用于低级控制和执行)之间的互操作性。我们描述了框架的核心功能以及我们的初始实现,其中 HARMONIC 部署在一个模拟的无人地面车辆 (UGV) 和无人机上,参与多机器人搜索和检索任务。
大型语言模型经过微调,可以拒绝有关危险知识的问题,但这些保护措施往往可以被绕过。遗忘学习方法旨在完全消除模型中的危险能力,使其无法被攻击者利用。这项工作从对抗的角度挑战了遗忘学习与传统安全训练后的根本区别。我们证明了现有的越狱方法,以前被报道对遗忘学习无效,在谨慎应用时可以成功。此外,我们开发了各种自适应方法,可以恢复大多数被认为遗忘的能力。例如,我们展示了在 10 个无关示例上进行微调或删除激活空间中的特定方向可以恢复使用 RMU(一种最先进的遗忘学习方法)编辑的模型的大多数危险能力。我们的发现挑战了当前遗忘学习方法的稳健性,并质疑它们相对于安全训练的优势。
在表征学习中,开发能够分离数据生成机制的基本结构的有意义且有效的表征至关重要。然而,由于相关生成因素、其分辨率以及对真实标签的访问有限,解耦表征学习尚未在真实图像上充分展现其潜力。具体而言,针对后者,我们研究了利用合成数据学习可应用于真实数据的通用解耦表征的可能性,讨论了微调的影响以及解耦的哪些特性在迁移后得以保留。我们提供了一项广泛的实证研究来解决这些问题。此外,我们提出了一种新的可解释的干预式指标,用于衡量表征中编码因素的质量。我们的结果表明,在一定程度上,将表征从合成数据迁移到真实数据是可行且有效的。
传统的工业自动化系统需要专业人员操作,并需要复杂的重新编程才能适应新的流程。大型语言模型提供了使其更灵活、更易于使用的智能。然而,LLM 在工业环境中的应用尚未得到充分探索。本文介绍了一种将 LLM 集成到工业自动化系统中以实现端到端控制的框架。该框架的核心是一个为工业任务设计的代理系统、一种结构化提示方法和一个事件驱动的信息建模机制,该机制为 LLM 推理提供实时数据。该框架为 LLM 提供了不同上下文语义层级的实时事件,使它们能够解释信息、生成生产计划并控制自动化系统上的操作。它还支持为 LLM 的这种下游应用进行微调的结构化数据集创建。我们的贡献包括一个正式的系统设计、概念验证实现和一种为 LLM 微调和测试生成特定于任务的数据集的方法。这种方法能够实现更具适应性的自动化系统,该系统可以响应自发事件,同时允许通过自然语言进行更轻松的操作和配置,从而实现更直观的交互。我们在 GitHub 上提供了演示视频和详细数据:https://github.com/YuchenXia/LLM4IAS
扩散模型已成功应用于机器人学问题,例如操作和车辆路径规划。在这项工作中,我们通过考虑在已知但任意二维环境中联合执行全局定位和路径规划的问题,探索了它们在端到端导航(包括感知和规划)中的应用。特别是,我们介绍了一种扩散模型,该模型在给定以自我为中心的激光雷达扫描、任意地图和所需目标位置的情况下,在全局参考系中生成无碰撞路径。为此,我们在 SE(2) 中的路径空间中实现了扩散,并描述了如何根据障碍物和传感器观测结果对去噪过程进行条件化。在我们的评估中,我们证明了所提出的条件化技术能够推广到与训练环境外观明显不同的真实地图,展示了我们的模型准确描述模糊解的能力,并进行了广泛的模拟实验,展示了我们的模型作为实时、端到端定位和规划堆栈的应用。
视觉Transformer(ViTs)的架构,特别是多头注意力(MHA)机制,对硬件提出了很高的要求。在移动电话等资源受限的设备上部署ViTs,需要多种不同尺寸的模型。然而,这种方法存在局限性,例如需要分别训练和存储每个所需模型。本文介绍了一种名为HydraViT的新方法,通过堆叠注意力头来实现可扩展的ViT,从而解决了这些局限性。通过在训练过程中重复改变每一层嵌入维度的尺寸及其在MHA中对应的注意力头数量,HydraViT诱导出多个子网络。因此,HydraViT在保持性能的同时,实现了对各种硬件环境的适应性。我们的实验结果证明了HydraViT在实现具有多达10个子网络的可扩展ViT方面的有效性,涵盖了广泛的资源约束。与基线相比,HydraViT在ImageNet-1K上以相同的GMACs实现了高达5 p.p.的精度提升,以相同的吞吐量实现了高达7 p.p.的精度提升,使其成为硬件可用性多样或随时间变化的场景的有效解决方案。源代码可在https://github.com/ds-kiel/HydraViT获取。
尽管大型语言模型 (LLMs) 因其卓越的能力而被广泛应用,但已被证明容易受到后门攻击。这类攻击通过对训练样本进行中毒和全参数微调,在 LLMs 中引入有针对性的漏洞。然而,这种后门攻击的局限性在于,它们需要大量的计算资源,特别是随着 LLMs 规模的扩大。此外,参数高效微调 (PEFT) 提供了一种替代方案,但受限的参数更新可能会阻碍触发器与目标标签的对齐。在本研究中,我们首先验证了使用 PEFT 的后门攻击在实现可行性能方面可能遇到挑战。为了解决这些问题并提高使用 PEFT 的后门攻击的有效性,我们提出了一种基于对比知识蒸馏的从弱到强的后门攻击算法 (W2SAttack)。具体来说,我们通过全参数微调对小型语言模型进行中毒,使其充当教师模型。然后,教师模型通过对比知识蒸馏将后门隐蔽地转移到大型学生模型,该蒸馏方法采用 PEFT。理论分析表明,W2SAttack 有可能增强后门攻击的有效性。我们证明了 W2SAttack 在针对四种语言模型、四种后门攻击算法和两种不同架构的教师模型的分类任务上的优越性能。实验结果表明,针对 PEFT 的后门攻击成功率接近 100%。