arXiv 论文列表

从像素到文字：通过交互式自然语言处理利用人脸识别中的可解释性

随着深度学习的发展，人脸识别（FR）技术取得了显著进步，在多个应用中实现了高精度。然而，这些系统的缺乏可解释性引发了对其问责制、公平性和可靠性的担忧。在本研究中，我们提出了一种交互式框架，通过结合模型无关的可解释人工智能（XAI）和自然语言处理（NLP）技术来增强FR模型的可解释性。该框架能够通过交互式聊天机器人准确地回答用户的各种问题。特别是，我们提出的方法生成的解释以自然语言文本和可视化表示的形式呈现，例如，可以描述不同的面部区域如何影响两个面部之间的相似性度量。这是通过自动分析人脸图像输出的显著性热图和BERT问答模型来实现的，为用户提供了一个界面，方便他们全面了解FR决策。该方法是交互式的，允许用户根据自己的背景知识提出问题以获取更精确的信息。更重要的是，与之前的研究相比，我们的解决方案不会降低人脸识别性能。我们通过不同的实验验证了该方法的有效性，突出了其在使FR系统更具可解释性和用户友好性方面的潜力，尤其是在决策透明度至关重要的敏感应用中。

发布时间: 9/25/2024

查看原文

神经网络简化程度评估：超参数配置对复杂度和敏感性的影响

本文通过实验研究，旨在理解不同超参数配置下神经网络的简化特性，特别关注其对 Lempel Ziv 复杂度和敏感性的影响。通过调整激活函数、隐藏层和学习率等关键超参数，该研究评估了这些参数如何影响网络输出的复杂度及其对输入扰动的鲁棒性。实验使用 MNIST 数据集进行，旨在深入了解超参数、复杂度和敏感性之间的关系，从而加深对神经网络中这些概念的理论理解。

发布时间: 9/25/2024

查看原文

跨主题功能性近红外光谱情绪识别在线多层对比表示蒸馏

利用功能性近红外光谱 (fNIRS) 信号进行情绪识别是理解人类情绪的一项重大进步。然而，由于该领域缺乏人工智能数据和算法，当前研究面临以下挑战：1) 便携式可穿戴设备对轻量级模型的要求更高；2) 不同受试者生理和心理的客观差异加剧了情绪识别的难度。为了解决这些挑战，我们提出了一种新颖的跨受试者 fNIRS 情绪识别方法，称为在线多级对比表示蒸馏框架 (OMCRD)。具体而言，OMCRD 是一个为多个轻量级学生网络之间相互学习而设计的框架。它利用每个子网络的多级 fNIRS 特征提取器，并使用生理信号进行多视角情感挖掘。所提出的跨受试者交互对比表示 (IS-ICR) 促进了学生模型之间交互的知识迁移，从而提高了跨受试者情绪识别性能。可以选择最佳学生网络并将其部署在可穿戴设备上。一些实验结果表明，OMCRD 在情绪感知和情感意象任务中取得了最先进的结果。

发布时间: 9/25/2024

查看原文

利用专家混合模型改进语音深度伪造检测

语音深度伪造对个人安全和内容真实性构成重大威胁。文献中已经提出了几种检测器，其中一个主要挑战是这些系统必须面对跨越广泛数据集识别假信号的跨不可见数据的泛化能力。本文提出了一种使用专家混合架构来增强语音深度伪造检测性能的新方法。专家混合框架非常适合语音深度伪造检测任务，因为它能够专门针对不同的输入类型并有效地处理数据可变性。与传统的单一模型或集成方法相比，这种方法具有优越的泛化能力和对不可见数据的适应性。此外，其模块化结构支持可扩展更新，使其在管理不断变化的深度伪造技术的复杂性方面更加灵活，同时保持高检测精度。我们提出了一种高效的轻量级门控机制，为每个输入动态分配专家权重，优化检测性能。跨多个数据集的实验结果证明了我们提出的方法的有效性和潜力。

发布时间: 9/25/2024

查看原文

面向鲁棒目标检测：通过模块不一致分析识别和移除后门

目标检测模型广泛应用于安全关键应用中，容易受到后门攻击，导致在触发特定模式时出现目标错误分类。现有的后门防御技术主要针对图像分类器等简单模型设计，通常无法有效地检测和去除目标检测器中的后门。我们提出了一种针对目标检测模型的后门防御框架，基于观察到后门攻击会导致局部模块的行为之间出现显著的不一致，例如区域建议网络 (RPN) 和分类头。通过量化和分析这些不一致，我们开发了一种算法来检测后门。我们发现不一致的模块通常是后门行为的主要来源，这导致了一种去除方法，该方法定位受影响的模块，重置其参数，并在一个小干净数据集上微调模型。对最先进的两阶段目标检测器的广泛实验表明，我们的方法在后门去除率方面比微调基线提高了 90%，同时将干净数据精度损失限制在 4% 以下。据我们所知，这项工作提出了第一个针对两阶段目标检测模型中的后门检测和去除问题的方法，推动了保护这些复杂系统免受后门攻击的领域发展。

发布时间: 9/25/2024

查看原文

人脸识别对抗性水印技术

水印技术是将标识符（即水印消息）嵌入数字图像中以断言所有权和监控未经授权的更改的重要技术。在人脸识别系统中，水印技术在确保数据完整性和安全性方面发挥着至关重要的作用。然而，攻击者可能会干扰水印过程，从而严重影响识别性能。我们探讨了水印与人脸识别模型对抗攻击之间的相互作用。我们的发现表明，虽然水印或输入级扰动单独可能会对识别精度产生微不足道的影响，但水印和扰动的组合效应会导致对抗性水印攻击，从而显着降低识别性能。具体而言，我们提出了一种新颖的威胁模型，即对抗性水印攻击，它在没有水印的情况下仍然是隐蔽的，允许图像最初被正确识别。然而，一旦应用水印，攻击就会被激活，导致识别失败。我们的研究揭示了一个先前未被认识到的漏洞：对抗性扰动可以利用水印消息来逃避人脸识别系统。在 CASIA-WebFace 数据集上进行评估，我们提出的对抗性水印攻击将人脸匹配精度降低了 67.2%，$\ell_\infty$ 范数测量的扰动强度为 ${2}/{255}$，降低了 95.9%，强度为 ${4}/{255}$。

发布时间: 9/25/2024

查看原文

全身末端执行器姿态跟踪

将机械臂与腿式机器人的移动性相结合对于各种机器人应用至关重要。然而，将机械臂与移动底座集成会显著增加系统的复杂性，从而使末端执行器精确控制变得困难。现有的基于模型的方法往往受到其建模假设的限制，导致鲁棒性有限。同时，最近的强化学习 (RL) 实施将机械臂的工作空间限制在机器人前方，或仅跟踪位置以获得良好的跟踪精度。在这项工作中，我们通过引入一种针对粗糙、非结构化地形上大型工作空间中末端执行器姿态跟踪的全身 RL 公式来解决这些限制。我们提出的方法包括针对机器人初始配置和末端执行器姿态命令的地形感知采样策略，以及基于游戏的课程，以扩展机器人的操作范围。我们在配备六自由度机械臂的 ANYmal 四足机器人上验证了我们的方法。通过我们的实验，我们表明所学习的控制器在大型工作空间中实现了精确的命令跟踪，并在楼梯和斜坡等不同地形之间适应。在部署中，它实现了 2.64 厘米和 3.64 度的姿态跟踪误差，优于现有的竞争基线。

发布时间: 9/25/2024

查看原文

时间-MoE：基于专家混合的十亿规模时间序列基础模型

近年来，用于时间序列预测的深度学习取得了显著进展。然而，尽管大规模预训练在语言和视觉领域取得了成功，但预训练的时间序列模型在规模上仍然有限，且运行成本高昂，阻碍了现实应用中更大能力的预测模型的开发。为此，我们引入了 Time-MoE，这是一个可扩展且统一的架构，旨在预训练更大、更强大的预测基础模型，同时降低推理成本。通过利用稀疏专家混合（MoE）设计，Time-MoE 通过仅激活每个预测的网络子集来提高计算效率，从而在保持高模型容量的同时降低计算负载。这使得 Time-MoE 能够有效地扩展，而不会相应地增加推理成本。Time-MoE 包含一系列仅解码器的 Transformer 模型，这些模型以自回归方式运行，并支持具有不同输入上下文长度的灵活预测范围。我们在我们新引入的大规模数据 Time-300B 上对这些模型进行了预训练，该数据跨越 9 个领域，包含超过 3000 亿个时间点。我们首次将时间序列基础模型扩展到 24 亿个参数，实现了显著提高的预测精度。我们的结果验证了时间序列预测中训练代币和模型大小的扩展定律的适用性。与具有相同数量激活参数或等效计算预算的密集模型相比，我们的模型始终以较大优势超越它们。这些进步将 Time-MoE 定位为解决现实世界时间序列预测挑战的最先进解决方案，具有卓越的能力、效率和灵活性。

发布时间: 9/25/2024

查看原文

具身计算与意识：探索机器和其他生物意识的框架

计算建模是理解意识的关键工具，但它本身就足够了吗？本文探讨了意识本体论基础的必要性，并介绍了一个将计算描述基础化到本体论基质的正式框架。利用这种技术，展示了一种估计两个系统之间定性体验差异的方法。该框架在意识的计算理论中具有广泛的适用性。

发布时间: 9/25/2024

查看原文

色调映射图像的深度色度压缩

由于智能设备的普及以及对高质量输出的需求，获取高动态范围 (HDR) 图像正蓬勃发展。大量研究集中在开发使用传统和基于深度学习的色调映射算子来降低 HDR 图像亮度范围的方法，以在传统的 8 位和 10 位数字显示器上实现准确的再现。然而，这些方法通常无法考虑可能超出目标显示器色域的像素，导致可见的色度失真或颜色裁剪伪影。先前研究表明，色域管理步骤可确保所有像素都保持在目标色域内。然而，此类方法计算成本高昂，无法部署在计算资源有限的设备上。我们提出了一种生成对抗网络，用于快速可靠地压缩 HDR 色调映射图像的色度。我们设计了一个损失函数，该函数考虑了生成图像的色调特性以提高颜色精度，并在大量图像数据集上训练模型。定量实验表明，所提出的模型在颜色精度方面优于最先进的图像生成和增强网络，而主观研究表明，在视觉质量方面，生成图像与传统色度压缩方法产生的图像相当或更好。此外，该模型实现了实时性能，在计算资源有限的设备上部署方面显示出可喜的结果。

发布时间: 9/25/2024

查看原文