扩散模型在点云配准 (PCR) 任务中展现出巨大的潜力,尤其是在增强对挑战性场景的鲁棒性方面。然而,现有的基于扩散的 PCR 方法主要关注实例级场景,并且难以处理室外激光雷达点,其中激光雷达点固有的稀疏性、不规则性和巨大的点规模对建立密集的全局点到点对应关系提出了挑战。为了解决这个问题,我们提出了一种名为 EADReg 的新颖框架,该框架基于自回归扩散模型,用于高效且鲁棒的激光雷达点云配准。EADReg 遵循由粗到精的配准范式。在粗配准阶段,我们采用双向高斯混合模型 (BGMM) 来剔除离群点并获得纯化的点云对。BGMM 建立了来自源帧和目标帧的高斯混合模型 (GMM) 之间的对应关系,从而能够基于过滤后的特征和几何信息进行可靠的粗配准。在精配准阶段,我们将基于扩散的 PCR 视为一个自回归过程,以生成鲁棒的点对应关系,然后在上一层迭代细化这些对应关系。尽管基于扩散的方法在推理速度方面存在普遍批评,但 EADReg 实现了与基于卷积的方法相当的运行时间。在 KITTI 和 NuScenes 基准数据集上的大量实验突出了我们提出的方法的最新性能。代码将在发表后公开发布。
有效监测野生动物对于评估生物多样性和生态系统健康至关重要,因为关键物种数量的下降往往预示着重大的环境变化。鸟类,特别是地面筑巢的物种,由于其对环境压力的敏感性,是重要的生态指标。相机陷阱已成为监测鸟类巢穴种群不可或缺的工具,能够在各种栖息地收集数据。然而,此类数据的 manual processing and analysis 非常耗费资源,往往会延迟可行的保护措施的实施。本研究提出了一种人工智能驱动的实时物种检测方法,重点关注数量显著下降的地面筑巢鸟类——蛎鹬 (Numenius arquata)。我们开发了一个定制训练的 YOLOv10 模型,利用连接到“保护人工智能”平台的 3/4G 网络摄像头来检测和分类蛎鹬及其幼鸟。该系统实时处理相机陷阱数据,显著提高了监测效率。在威尔士的 11 个筑巢点,该模型取得了高性能,蛎鹬检测的灵敏度为 90.56%,特异性为 100%,F1 分数为 95.05%;蛎鹬幼鸟检测的灵敏度为 92.35%,特异性为 100%,F1 分数为 96.03%。这些结果证明了人工智能驱动的监测系统能够提供准确及时的生物多样性评估数据,从而促进及早采取保护措施,并推动技术在生态研究中的应用。
近年来,基于扩散模型的图像编辑技术取得了显著进展。然而,高质量的视频编辑仍然是一项重大挑战。其中一个主要障碍是缺乏基于真实世界数据的开源、大规模视频编辑数据集,因为构建此类数据集既费时又费钱。此外,视频数据需要显著更多的标记进行表示,这大大增加了视频编辑模型的训练成本。最后,目前的视频编辑模型交互性有限,用户往往难以在一次尝试中有效地表达其编辑需求。为了应对这些挑战,本文介绍了一个数据集VIVID-10M和一个基线模型VIVID。VIVID-10M是第一个大规模混合图像-视频局部编辑数据集,旨在降低数据构建和模型训练成本,它包含970万个样本,涵盖了各种视频编辑任务。VIVID是一个在VIVID-10M上训练的多功能交互式视频局部编辑模型,支持实体添加、修改和删除。其核心是一个关键帧引导的交互式视频编辑机制,允许用户迭代地编辑关键帧并将其传播到其他帧,从而减少达到预期结果的延迟。大量的实验评估表明,我们的方法在视频局部编辑方面达到了最先进的性能,在自动化指标和用户研究中都超过了基线方法。VIVID-10M数据集和VIVID编辑模型将可在\url{https://inkosizhong.github.io/VIVID/}访问。
我们提出了Explabox:一个用于透明和负责任的机器学习(ML)模型开发和使用的开源工具包。Explabox通过采用四步策略(探索、检查、解释和公开)来帮助实现可解释、公平且鲁棒的模型。这些步骤提供了与模型无关的分析,将复杂的“难以理解的”(模型和数据)转化为可解释的“易于理解的”。该工具包包含描述性统计、性能指标、模型行为解释(局部和全局)以及鲁棒性、安全性和公平性评估的可理解信息。Explabox使用Python实现,支持多种交互模式,并基于开源软件包构建。它使模型开发者和测试者能够将可解释性、公平性、可审计性和安全性付诸实践。初始版本侧重于文本数据和模型,并计划进行扩展。Explabox的代码和文档可在https://explabox.readthedocs.io/公开获取。
精确预测电力负荷,例如峰值功率的大小和时间,对于成功的电力系统管理和实施智能电网策略(如需求响应和削峰)至关重要。在多时间尺度优化调度中,滚动优化是一种常见的解决方案。然而,滚动优化需要考虑不同时间尺度上不同优化目标的耦合。准确捕捉时间序列数据中的中长期依赖关系具有挑战性。本文提出了一种多尺度电力负荷预测框架Multi-pofo,该框架通过配备时间位置编码层的新型架构来捕捉这种依赖关系。为了验证所提出模型的有效性,我们在真实世界的电力负荷数据上进行了实验。实验结果表明,我们的方法优于几种强大的基线方法。
基于扩散模型的文本到图像模型近期在生成高质量图像方面取得了显著成功。然而,对这些图像中实例进行个性化、可控生成的挑战仍然有待进一步发展。本文提出了一种新颖的、无需微调的模型LocRef-Diffusion,该模型能够个性化定制图像中多个实例的外观和位置。为了提高实例放置的精度,我们引入了一个布局网络(Layout-net),它利用显式的实例布局信息和实例区域交叉注意力模块来控制实例生成的位 置。为了提高与参考图像的外观保真度,我们采用了一个外观网络(appearance-net),该网络提取实例外观特征,并通过交叉注意力机制将其整合到扩散模型中。我们在COCO和OpenImages数据集上进行了大量的实验,结果表明,我们提出的方法在布局和外观引导的生成方面取得了最先进的性能。
精确分割血管对于各种临床评估和术后分析至关重要。然而,血管成像固有的挑战,例如稀疏性、细粒度、低对比度、数据分布变异性以及保持拓扑结构的关键需求,使得血管的普遍分割尤其复杂。虽然已经开发出针对特定解剖区域的专用分割方法,但它们过度依赖定制模型,阻碍了更广泛的适用性和泛化能力。医学影像中引入的通用分割模型往往未能解决关键的血管特征,包括分割结果的连通性。为了克服这些局限性,我们提出了一种优化的血管分割框架:一种结构不可知的方法,结合小血管增强和形态校正,用于多模态血管分割。为了训练和验证该框架,我们编制了一个包含 17 个数据集的综合多模态数据集,并将我们的模型与六种基于 SAM 的方法和 17 个专家模型进行了基准测试。结果表明,我们的方法实现了优越的分割精度、泛化能力,并且连通性提高了 34.6%,突显了其临床潜力。消融研究进一步验证了所提出改进的有效性。我们将在这项工作发表后在 GitHub 上发布代码和数据集。
日志系统是记录Web服务系统运行状态和事件的重要机制,而日志异常检测是检测问题的一种有效方法。然而,人工日志异常检测效率低下、容易出错且不切实际。现有的日志异常检测方法要么使用事件模板的索引,要么将模板的固定字符串部分嵌入为句子来形成向量,要么使用时间参数进行序列分析。然而,日志条目通常包含这些方法无法完全表示的特征和语义信息,导致漏报和误报。本文提出了一种通用的无监督的非结构化日志分析方法TPLogAD,该方法基于事件模板和关键参数进行异常检测。TPLogAD中包含的itemplate2vec和para2vec是两种高效易实现的日志语义表示方法,分别用于检测事件模板和参数中的异常,这在以往的工作中尚未实现。此外,TPLogAD可以避免日志多样性和动态性对异常检测的干扰。我们在四个公共日志数据集上的实验表明,TPLogAD优于现有的日志异常检测方法。
大型预训练视觉-语言模型(VLMs),例如对比语言-图像预训练模型(CLIP),已被证明容易受到对抗性攻击,这引发了人们对其在自动驾驶和医疗诊断等安全关键场景中部署的担忧。提高预训练VLMs鲁棒性的一种有前景的方法是对抗性提示微调(APT),它结合了对抗性训练和提示微调。然而,现有的APT方法大多是单模态方法,只为视觉或文本模态设计提示,这限制了它们在鲁棒性或干净精度方面的有效性。在这项工作中,我们提出了一种名为对抗性提示蒸馏(APD)的新方法,它结合了APT和知识蒸馏来提高CLIP的对抗鲁棒性。具体来说,APD是一种双模态方法,它为视觉和文本模态都添加提示,同时利用干净预训练的教师CLIP模型来蒸馏和提升学生CLIP模型在下游任务上的性能。在多个基准数据集上的大量实验表明,我们的APD方法在自然性能和对抗性能方面都优于当前最先进的APT方法。我们的APD方法的有效性验证了使用非鲁棒教师来提高VLMs泛化能力和鲁棒性的可能性。
创造人工智能(AI)的追求反映了我们长期以来对理解自身智能的迷恋。从塔罗斯的神话到亚里士多德逻辑和希罗的创造发明,我们一直在试图复制思维的奇迹。虽然人工智能的最新进展带来了希望,但单一的方法往往无法捕捉智能的本质。本文探讨了生物计算的基本原理——特别是依赖于上下文的分层信息处理、试错启发式方法和多尺度组织——如何指导真正智能系统的构建。通过检查生物智能的细微机制,例如自上而下的因果关系和与环境的自适应交互,我们旨在阐明人工结构的潜在局限性。我们的目标是提供一个受生物系统启发的框架,用于设计更具适应性和鲁棒性的人工智能系统。