具有新颖视图合成能力的同步定位与建图 (SLAM) 系统广泛应用于计算机视觉领域,并在增强现实、机器人技术和自动驾驶等方面具有应用价值。然而,现有方法仅限于单智能体操作。近期工作利用分布式神经场景表示解决了这个问题。不幸的是,现有方法速度慢、无法准确渲染真实世界数据、仅限于两个智能体,并且跟踪精度有限。相比之下,我们提出了一种基于刚性可变形三维高斯的场景表示方法,极大地提高了系统速度。然而,由于轨迹漂移和各智能体观测结果之间的差异,提高跟踪精度和从多个智能体重建全局一致的地图仍然具有挑战性。因此,我们提出了新的跟踪和地图融合机制,并在基于高斯的 SLAM 管道中集成了闭环检测。我们在合成数据集和真实世界数据集上评估了 MAGiC-SLAM,发现它比现有技术更准确、更快。
人体姿态在数字时代扮演着至关重要的角色。虽然最近的研究在理解和生成人体姿态方面取得了令人瞩目的进展,但它们通常只支持单一模态的控制信号,并且孤立地运行,限制了其在现实场景中的应用。本文提出了UniPose框架,该框架利用大型语言模型 (LLM) 来理解、生成和编辑跨越各种模态的人体姿态,包括图像、文本和3D SMPL姿态。具体来说,我们应用姿态标记器将3D姿态转换为离散的姿态标记,从而在统一的词汇表中实现与LLM的无缝集成。为了进一步增强细粒度姿态感知能力,我们为UniPose配备了多种视觉编码器,其中包括一个姿态特定的视觉编码器。得益于统一的学习策略,UniPose有效地跨不同姿态相关任务迁移知识,适应未见过的任务,并展现出扩展的能力。这项工作是构建用于姿态理解、生成和编辑的通用框架的首次尝试。大量的实验结果突出了UniPose在各种姿态相关任务中具有竞争力甚至优越的性能。
医学视觉问答(VQA)是一项将计算机视觉和自然语言处理相结合以自动回答有关医学图像临床问题的关键技术。然而,目前的医学VQA数据集存在两个显著的局限性:(1)它们通常缺乏答案的视觉和文本解释,这阻碍了其满足患者和初级医生的理解需求;(2)它们通常提供有限的提问格式,无法充分反映临床场景中多样化的需求。这些局限性对可靠且用户友好的医学VQA系统的开发提出了重大挑战。为了应对这些挑战,我们引入了一个用于胸部X光诊断的大规模、可解释的医学VQA基准GEMeX,它具有几个创新组成部分:(1)一种多模态可解释性机制,为每个问答对提供详细的视觉和文本解释,从而增强答案的可理解性;(2)四种不同的问题类型:开放式、封闭式、单选题和多选题,更好地反映了多样化的临床需求。我们在GEMeX上评估了10个具有代表性的大型视觉语言模型,发现它们的性能不佳,突出了该数据集的复杂性。然而,在使用训练集微调基线模型后,我们观察到性能有了显著提高,证明了该数据集的有效性。该项目可在www.med-vqa.com/GEMeX访问。
指令微调已成为微调预训练语言模型以更好地遵循人类指令并在各种任务上进行泛化的重要步骤。如今,预训练语言模型越来越大,全参数微调的成本高得惊人。因此,参数高效微调 (PEFT) 作为一种经济高效的指令微调方法应运而生,因为它与全参数微调相比,计算、内存和存储成本大大降低。尽管 PEFT 方法得到了广泛应用,但其巨大的超参数空间、PEFT 方法的数量以及指令微调能力的不同侧重点使得难以理清每个方面的影响。本研究系统地研究了几种具有代表性的 PEFT 方法,调查了超参数选择(包括训练超参数和 PEFT 特定的超参数)的影响,不同模型大小和指令任务数量如何影响性能、任务内分布记忆和开放指令遵循能力。我们的实证研究表明,只有 LoRA 和适配器在理想的训练设置下才能接近全参数微调。理想的训练设置包括适当的学习率、允许的最大 LoRA秩或适配器大小以及多样化的训练任务。另一方面,如果达不到这种理想的训练条件,LoRA 和适配器就会遭受训练不稳定的困扰。此外,LoRA 需要更多任务才能有效地进行未见任务泛化,学习速度较慢。此外,LoRA 的任务级记忆能力较弱。最后,与开放指令微调设置中的微调相比,LoRA 和适配器在复杂推理、编码和长文本生成方面表现不足,但在与适配器相比,它展现出更强的能力。
在异常检测中,与正常数据相比,异常数据的稀缺性给有效利用深度神经网络表示来识别异常特征带来了挑战。从数据中心的视角来看,生成模型可以通过合成异常数据集来解决这种数据不平衡问题。尽管之前的研究试图增强缺陷生成的控制性和质量,但它们并没有考虑背景和缺陷之间的关系。由于缺陷取决于物体的背景(即物体的正常部分),仅仅训练缺陷区域无法利用背景信息,甚至生成的缺陷可能会依赖于掩码信息而产生偏差。此外,控制逻辑异常应考虑背景和缺陷区域之间的依赖关系(例如,橙汁瓶上的橙色缺陷)。本文提出了一种对背景和缺陷之间关系的建模方法,其中背景影响去噪缺陷;然而,反过来则不然。我们引入正则化项来将去噪背景与缺陷解耦。从解耦损失出发,我们利用DDIM反演重新思考缺陷生成,我们在目标正常图像上生成缺陷。此外,我们从理论上证明了我们的方法可以在具有不变背景的目标正常图像上生成缺陷。我们在几个实验中证明了我们合成数据的真实性和有效性。
成员推断攻击(MIA)是评估隐私风险和确保符合《通用数据保护条例》(GDPR)等规定的关键工具。然而,其在审核数据未经授权使用的潜力仍未得到充分探索。为了弥合这一差距,我们提出了一种新颖的基于干净标签后门的MIA方法,专门用于稳健和隐蔽的数据审计。与依赖于具有更改标签的可检测中毒样本的传统方法不同,我们的方法保留了自然标签,即使在中毒率较低的情况下也能增强隐蔽性。我们的方法采用由模仿目标模型行为的影子模型生成的最佳触发器。这种设计最大限度地减少了触发样本与源类别之间的特征空间距离,同时保留了原始数据标签。其结果是一种强大且不可检测的审计机制,克服了现有方法的局限性,例如中毒样本中的标签不一致和视觉伪影。该方法能够通过黑盒访问进行稳健的数据审计,在各种数据集和模型架构中实现了较高的攻击成功率。此外,它还解决了与触发器隐蔽性和中毒持久性相关的挑战,使其成为一种实用且有效的数据审计解决方案。全面的实验验证了我们方法的有效性和泛化能力,在隐蔽性和攻击成功指标方面都优于几种基线方法。
多模态大型语言模型 (MLLM) 作为重要的接口,连接着人类与多模态应用中的 AI 技术。然而,当前的 MLLM 由于训练数据中方向标注的不一致性,难以准确解读图像中的物体方向,阻碍了对方向一致性理解的发展。为了克服这个问题,我们提出了以自我为中心的指令微调方法,该方法基于从用户自我视角得出的统一标注标准,使 MLLM 的方向理解与用户的视角保持一致。我们首先生成以自我为中心的指令数据,利用 MLLM 识别物体细节的能力,并应用先验知识进行方向理解。利用这些数据,我们进行指令微调,以增强模型准确解读方向的能力。此外,我们引入了 EgoOrientBench 基准,该基准使用从不同领域收集的图像,通过三个任务评估 MLLM 的方向理解能力。该基准的实验结果表明,以自我为中心的指令微调显著提高了方向理解能力,而不会影响 MLLM 的整体性能。指令数据和基准数据集可在我们的项目页面 https://github.com/jhCOR/EgoOrientBench 获取。
为什么基于梯度的解释方法难以应对Transformer模型,我们又该如何改进它们?我们发现了Transformer模型中梯度流失衡的问题,这违反了全梯度完备性(FullGrad-completeness)——卷积神经网络(CNN)天然具备的一个关键属性,对属性的忠实性至关重要。为了解决这个问题,我们引入了LibraGrad——一种理论上合理的后期处理方法,它通过对反向传播路径进行剪枝和缩放来校正梯度失衡,而无需改变前向传播过程或增加计算开销。我们使用三个指标族来评估LibraGrad:忠实性(Faithfulness),量化了在对最相关和最不相关特征进行扰动后预测的变化;完备性误差(Completeness Error),衡量了相对于模型输出的属性守恒性;以及分割平均精度(Segmentation AP),评估了与人类感知的一致性。在8种架构、4种模型大小和4个数据集上进行的大量实验表明,LibraGrad普遍增强了基于梯度的方法,在所有指标上都优于现有的白盒方法,包括针对Transformer的特定方法。我们通过两个互补的评估证明了其优越的定性结果:在CLIP模型上进行精确的文本提示区域高亮显示,以及在ImageNet微调模型上对同时出现的动物进行准确的类别区分——这两个设置是现有方法经常难以应对的。即使在无注意力机制的MLP-Mixer架构上,LibraGrad也同样有效,这表明它有可能扩展到其他现代架构。我们的代码可在https://github.com/NightMachinery/LibraGrad免费获取。
随着人工智能图像生成技术的普及及其日益便捷的获取,人们对这些图像被滥用于传播虚假信息的能力表示严重关切。最近的人工智能生成图像检测 (AGID) 方法包括 CNNDetection、NPR、DM 图像检测、Fake Image Detection、DIRE、LASTED、GAN 图像检测、AIDE、SSP、DRCT、RINE、OCC-CLIP、De-Fake 和 Deep Fake Detection。然而,我们认为目前最先进的 AGID 技术不足以有效检测当代人工智能生成的图像,并主张对这些方法进行全面重新评估。我们引入了视觉反图灵测试 (VCT²),这是一个包含约 13 万张由当代文本到图像模型(Stable Diffusion 2.1、Stable Diffusion XL、Stable Diffusion 3、DALL-E 3 和 Midjourney 6)生成的图像的基准。VCT² 包含两组提示,这些提示来自《纽约时报》推特账号的推文和 MS COCO 数据集的标题。我们还在 VCT² 基准上评估了上述 AGID 技术的性能,突出了它们在检测人工智能生成图像方面的无效性。随着图像生成人工智能模型的不断发展,对评估这些模型的可量化框架的需求也日益迫切。为了满足这一需求,我们提出了视觉人工智能指数 (V_AI),它从各种视觉角度(包括纹理复杂性和对象连贯性)评估生成的图像,为评估图像生成人工智能模型设定了新的标准。为了促进该领域的研究,我们将我们的 https://huggingface.co/datasets/anonymous1233/COCO_AI 和 https://huggingface.co/datasets/anonymous1233/twitter_AI 数据集公开发布。
网络钓鱼是网络罪犯获取受害者敏感信息(如网上银行凭证、数字钱包、国家机密等)最有效的手段之一。他们通过向用户发送包含恶意URL的垃圾邮件,诱骗用户泄露敏感信息,然后将其用于各种网络犯罪。本研究对当前最先进的机器学习和深度学习网络钓鱼检测技术进行了全面综述,揭示了其漏洞并指出了未来的研究方向。为了更好地分析和观察,我们将机器学习技术分为贝叶斯方法、非贝叶斯方法和深度学习方法。我们回顾了贝叶斯和非贝叶斯分类器的最新进展,然后利用其相应的弱点来指明未来的研究方向。在利用贝叶斯和非贝叶斯分类器的弱点时,我们还将每种方法的性能与深度学习分类器进行了比较。为了对基于深度学习的分类器进行适当的回顾,我们研究了循环神经网络 (RNN)、卷积神经网络 (CNN) 和长短期记忆网络 (LSTM)。我们进行了实证分析,以评估每个分类器的性能以及许多已提出的最先进的反网络钓鱼技术,以确定未来的研究方向,我们还提出了一系列关于如何改进性能较差的算法以及一个两阶段预测模型的建议。