像 CLIP 这样的多模态编码器在零样本图像分类和跨模态检索等任务中表现出色。然而,它们需要大量的训练数据。我们提出了规范相似性分析 (CSA),它使用两个单模态编码器来用有限的数据复制多模态编码器。CSA 将单模态特征映射到多模态空间,使用新的相似性得分仅保留多模态信息。CSA 只涉及单模态编码器的推断和三次复杂度矩阵分解,消除了对大量基于 GPU 的模型训练的需求。实验表明,CSA 在 ImageNet 分类和错误信息新闻标题检测方面优于 CLIP,同时需要少 $300,000\times$ 倍的多模态数据对和少 $6\times$ 倍的单模态数据。CSA 超越了将单模态特征映射到多模态特征的最先进方法。我们还证明了 CSA 在图像和文本以外的模态中的能力,为未来具有有限配对多模态数据但大量非配对单模态数据(如激光雷达和文本)的模态对铺平了道路。
近年来,视觉语言模型(VLMs)的进步使得通过同时处理文本和图像数据来完成复杂的多模态任务成为可能,极大地促进了人工智能领域的发展。然而,这些模型往往表现出偏见,可能导致输出结果倾向于社会刻板印象,因此需要去偏见策略。现有的去偏见方法过于局限于特定的模态或任务,且需要大量重新训练。为了解决这些局限性,本文提出了一种新的方法——选择性特征插补去偏见(SFID),该方法将特征修剪和低置信度插补(LCI)相结合,有效地减少了 VLMs 中的偏见。SFID 具有通用性,能够保持输出的语义完整性,并且通过消除重新训练的需要而具有成本效益。我们的实验结果表明,SFID 在各种 VLMs 任务中都表现出有效性,包括零样本分类、文本到图像检索、图像字幕和文本到图像生成,它显著减少了性别偏见,而不会影响性能。这种方法不仅增强了 VLMs 应用的公平性,而且保留了其在各种场景中的效率和实用性。
大型语言模型(LLM)的广泛部署带来了令人印象深刻的进步,但有关其训练数据的关键信息却依然未公开。成员推断攻击(MIA)旨在确定特定实例是否属于目标模型的训练数据的一部分。MIA 可以提供对 LLM 输出的见解,并帮助检测和解决数据污染以及隐私和版权标准合规性等问题。然而,将 MIA 应用于 LLM 面临着独特的挑战,因为预训练数据的规模巨大,而且成员关系的性质不明确。此外,创建合适的基准来评估 MIA 方法并非易事,因为训练和测试数据分布通常是未知的。在本文中,我们介绍了 EM-MIA,这是一种针对 LLM 的新型 MIA 方法,它通过期望最大化算法迭代地细化成员评分和前缀评分,利用这些评分估计可以通过相互改进的二元性。成员评分和前缀评分分别评估每个实例作为成员和区分性前缀的可能性。我们的方法在 WikiMIA 数据集上取得了最先进的结果。为了进一步评估 EM-MIA,我们提出了 OLMoMIA,一个基于 OLMo 资源构建的基准,它允许我们通过训练和测试数据分布之间不同程度的重叠来控制 MIA 任务的难度。我们相信 EM-MIA 是一种针对 LLM 的强大 MIA 方法,而 OLMoMIA 为全面评估 MIA 方法提供了一种宝贵的资源,从而推动了该关键领域未来的研究。
我们提出了一种针对场景上下文生成任务进行微调的神经网络架构:文本中提到的事件或实体的相关位置和时间。将信息提取上下文化有助于在将自动发现结果聚合为知识图时限定其有效性。我们的方法使用高质量的流行病学论文语料库中时间和位置标注的精选数据集来训练编码器-解码器架构。我们还探索了在训练期间使用数据增强技术。我们的研究结果表明,一个相对较小的微调编码器-解码器模型在准确预测特定实体或事件的相关场景信息方面比现成的 LLMs 和语义角色标注解析器表现更好。
我们介绍了 PLaMo-100B,这是一个为日语能力而设计的大型语言模型。该模型从头开始训练,使用了 2 万亿个词元,并采用了 QK 归一化和 Z 损失等架构来确保训练过程中的稳定性。训练后技术,包括监督微调和直接偏好优化,被应用于改进模型的性能。基准评估表明 PLaMo-100B 表现良好,特别是在日语特定任务中,其结果与 GPT-4 等前沿模型具有竞争力。
本文介绍了一种名为“知识表示增强生成”(KRAG) 的新型框架,旨在增强大型语言模型 (LLM) 在特定领域应用中的能力。KRAG 指出在标准数据集中通常缺失的、LLM 本身无法学习的关键知识实体和关系的战略性纳入。在法律应用的背景下,我们提出了 Soft PROLEG,这是 KRAG 下的一个实现模型,它利用推理图来帮助 LLM 提供结构化的法律推理、论证和解释,以满足用户查询。KRAG 的集成,无论是作为独立框架还是与检索增强生成 (RAG) 结合使用,都显著提高了语言模型在法律文本和术语方面应对复杂挑战的能力。本文详细介绍了 KRAG 的方法论、通过 Soft PROLEG 的实现以及潜在的更广泛的应用,强调了它在推进自然语言理解和处理专业知识领域中的重要作用。
实体链接 (EL) 是将文本中模棱两可的提及与知识库中的特定实体关联起来的过程。传统的 EL 方法严重依赖于大型数据集来提高其性能,这种依赖关系在少样本实体链接的背景下变得很成问题,因为只有有限数量的样本可用于训练。为了解决这一挑战,我们提出了 OneNet,这是一个创新的框架,它利用了大型语言模型 (LLMs) 的少样本学习能力,而无需微调。据我们所知,这是将 LLMs 应用于少样本实体链接任务的开创性方法。OneNet 的结构围绕着 LLM 提示的三项关键组件:(1) 实体缩减处理器,通过总结和过滤掉无关实体来简化输入;(2) 双视角实体链接器,结合上下文线索和先验知识,实现精确的实体链接;(3) 实体一致性判断器,采用独特的 一致性算法来缓解实体链接推理中的幻觉。对七个基准数据集的综合评估表明,OneNet 优于当前最先进的实体链接方法。
脉冲神经网络(SNNs)因其受脑启发和节能的特性,被认为在人工智能(AI)的未来发展中具有巨大潜力。在当前SNNs的监督学习领域,与传统的时空反向传播(STBP)训练相比,在线训练可以有效地克服GPU内存爆炸的风险,并获得了广泛的学术关注。然而,目前提出的在线训练方法无法解决时间相关梯度的不可分离问题,仅仅旨在优化训练内存,导致在推理阶段与STBP训练模型相比没有性能优势。为了解决上述挑战,我们提出了高效多精度发射(EM-PF)模型,这是一个基于浮点脉冲和二进制突触权重的先进脉冲模型家族。我们指出,EM-PF模型可以有效地分离时间梯度,并在计算速度和内存占用方面实现全阶段优化。实验结果表明,EM-PF模型可以灵活地与各种技术相结合,包括随机反向传播、并行计算和通道注意力机制,在在线学习领域以极低的计算开销实现最先进的性能。
穿墙雷达(TWR)人体活动识别(HAR)是一种利用低频超宽带(UWB)信号检测和分析室内人体运动的技术。然而,现有的端到端识别模型对TWR训练数据的分布高度依赖,这使得难以在不同的室内测试者之间实现良好的泛化能力。针对这一问题,本文分析了TWR HAR的泛化能力。具体而言,首先讨论了一种用于TWR HAR的端到端线性神经网络方法及其泛化误差界。其次,介绍了一种微多普勒角表示方法以及降维前后泛化误差的变化。通过数值模拟和实验验证了理论泛化误差的合理性。结果表明,特征降维可以有效地使识别模型在不同的室内测试者之间实现泛化。
基于微多普勒角点云和动态图学习的通用室内人体活动识别方法。