大型语言模型 (LLM) 已经取代了传统方法,在众多自然语言处理任务中占据主导地位。然而,在命名实体识别 (NER) 领域,现有的基于 LLM 的方法...
大型语言模型(LLMs)如 GPT 和 LLaMA 家族,在处理海量信息时,长文本摘要变得至关重要,但由于缺乏开源训练数据集以及对上下文细节处理的高要求,这一任务对它们来说仍然充满挑战。为了解决这个问题,我们设计了一个新颖的零样本迁移学习框架,简称 T3,该框架通过在辅助任务上迭代训练一个基线 LLM 来实现目标任务的训练,其中辅助任务应拥有更丰富的数据资源,并与目标任务在结构或语义上具有相似性。在实践中,T3 通过利用问答作为辅助任务来处理长文本摘要任务,并在 BBC 摘要、NarraSum、FairytaleQA 和 NLQuAD 数据集上进一步验证了其有效性,与三个基线 LLM 相比,ROUGE 提高了近 14%,BLEU 提高了 35%,Factscore 提高了 16%,这表明它在更多辅助-目标任务组合中的潜力。
大规模预训练的视觉语言模型(VLMs)在各种视觉和多模态任务中获得了突出地位,但由于其对训练样本和计算资源的苛刻要求,VLMs 在下游应用平台上的部署仍然具有挑战性。VLMs 的微调和量化可以大幅降低样本和计算成本,这迫切需要。量化中有两种流行的范式,量化感知训练 (QAT) 可以有效地量化大规模 VLMs,但会产生巨大的训练成本,而低比特训练后量化 (PTQ) 会导致显著的性能下降。我们提出了一种平衡微调和量化的名为“提示量化”(P4Q)的方法,其中我们设计了一个轻量级架构,利用对比损失监督来增强 PTQ 模型的识别性能。我们的方法可以有效地减少低比特量化导致的图像特征和文本特征之间的差距,基于可学习的提示来重组文本表示,以及低比特适配器来重新对齐图像和文本特征的分布。我们还引入了基于余弦相似度预测的蒸馏损失,以使用全精度教师蒸馏量化模型。大量的实验结果表明,我们的 P4Q 方法优于现有技术,甚至达到了与全精度对应模型相当的结果。例如,我们的 8 位 P4Q 可以理论上将 CLIP-ViT/B-32 压缩 4 倍,同时实现 66.94% 的 Top-1 准确率,在 ImageNet 数据集上,比可学习提示微调的全精度模型高出 2.24%,而额外的参数可以忽略不计。
由于对高级视觉计算的需求不断增长,估计手和物体姿势已成为一个重要的研究领域。主要挑战在于理解和重建手和物体之间的交互方式,例如接触和物理合理性。现有的方法通常采用图神经网络来整合手和物体网格的空间信息。然而,这些方法尚未充分利用图的潜力,而没有修改手部和物体图内以及之间的边。我们提出了一种基于图的细化方法,该方法包含一种交互感知图注意力机制来考虑手物体交互。利用边,我们在单个图内和不同图之间建立了紧密相关节点之间的连接。实验表明,我们提出的方法在物理合理性方面取得了显著的改进。
几何图神经网络(GNN)已成为建模分子几何的强大工具。然而,在有效捕获大型分子系统中的长程相互作用方面,它们遇到了局限性。为了解决这一挑战,我们引入了神经 P$^3$M,这是一种通用的几何 GNN 增强器,通过将网格点与原子一起纳入并以可训练的方式重新构想传统数学运算,扩展了其功能范围。神经 P$^3$M 在各种分子系统中表现出灵活性,并在预测能量和力方面表现出非凡的准确性,在 MD22 数据集等基准测试中优于其他方法。它还与各种架构集成,在 OE62 数据集上实现了平均 22% 的改进。
从集中式平台到去中心化生态系统,如数据空间,数据共享已成为一项重大挑战。因此,数据使用策略的定义在这些领域变得至关重要,突出了有效策略执行机制的必要性。开放数字权利语言 (ODRL) 是一个 W3C 标准本体,旨在描述数据使用策略,但它缺乏内置的执行能力,限制了其实际应用。本文介绍了开放数字权利执行 (ODRE) 框架,其目标是为 ODRL 提供执行能力。ODRE 框架提出了一种新方法来表达 ODRL 策略,该方法将 ODRL 的描述性本体术语与其他允许行为规范的语言(如动态数据处理或函数评估)相结合。该框架包括一个用于 ODRL 策略的执行算法,以及用 Python 和 Java 编写的两个开源实现。ODRE 框架还旨在支持 ODRL 对特定领域场景的未来扩展。此外,还报告了 ODRE、ODRL 和当前挑战的当前局限性。最后,为了证明实现的执行能力、性能和可扩展性特征,已经进行了一些具有积极结果的实验。
用于多模态对比学习的预训练大型模型(如 CLIP)在业界被广泛认为极易受到数据中毒后门攻击。这给下游模型训练带来了重大风险。为了应对这些潜在威胁,与使用增强数据重新训练大型模型相比,微调提供了一种更简单、更有效的防御选择。在监督学习领域,微调防御策略可以实现出色的防御性能。然而,在无监督和半监督领域,我们发现当 CLIP 面临一些复杂的攻击技术时,现有的微调防御策略 CleanCLIP 在防御性能方面存在一些局限性。其文本增强中的同义词替换不足以增强文本特征空间。为了弥补这一弱点,我们通过提出一种细粒度的文本对齐清理器(TA-Cleaner)来切断后门触发器的特征连接,从而对其进行改进。我们在 CleanCLIP 的每个 epoch 随机选择一些样本进行正负子文本生成,并将子文本与图像对齐,以增强文本自监督。我们评估了 TA-Cleaner 对六种攻击算法的有效性,并在 ImageNet1K 上进行了全面的零样本分类测试。我们的实验结果表明,TA-Cleaner 在基于微调的防御技术中实现了最先进的防御性能。即使面对新型攻击技术 BadCLIP,我们的 TA-Cleaner 也优于 CleanCLIP,将 Top-1 和 Top-10 的 ASR 分别降低了 52.02% 和 63.88%。
近年来,直播视频在各种社交媒体平台上获得了广泛的普及。体验质量(QoE)反映了最终用户的满意度和整体体验,对于媒体服务提供商来说至关重要,因为它可以优化大规模直播压缩和传输策略,以实现感知最佳的率失真权衡。虽然已经提出了许多针对点播视频(VoD)的QoE指标,但开发用于直播视频流的QoE指标仍然面临着重大挑战。为了弥合这一差距,我们对直播视频流的主观和客观QoE评估进行了全面研究。对于主观QoE研究,我们引入了第一个直播视频流QoE数据集,即TaoLive QoE,该数据集包含来自真实直播的42个源视频和1155个相应的失真视频,这些视频由于各种流失真而退化,包括传统的流失真,如压缩、卡顿,以及直播特有的失真,如帧跳跃、可变帧率等。随后,我们进行了一项人类研究,以获得TaoLive QoE数据集中视频的主观QoE评分。对于客观QoE研究,我们在TaoLive QoE数据集以及公开可用的VoD场景QoE数据集上对现有的QoE模型进行了基准测试,突出了当前模型难以准确评估视频QoE,特别是对于直播内容。因此,我们提出了一种端到端的QoE评估模型,即Tao-QoE,该模型集成了多尺度语义特征和基于光流的运动特征来预测回顾性QoE评分,从而消除了对统计服务质量(QoS)特征的依赖。
基于数值流形方法原理,我们开发了神经网络流形的数学框架:深度流形,并发现神经网络:1)是结合正向和逆向的数值计算;2)具有近乎无限的自由度;3)随着深度呈指数级增长学习能力;4)具有自进化的边界条件;5)具有训练隐藏瓶颈。我们还定义了两个概念:神经网络学习空间和深度流形空间,并引入了两个概念:神经网络内在路径和不动点。我们提出了三个基本问题:1)训练完成的定义是什么;2)深度学习的收敛点(神经网络不动点)在哪里;3)在逆问题中负时间至关重要的情况下,训练数据中的令牌时间戳有多重要。
对抗训练在防御对抗攻击方面取得了显著进展。其中,快速对抗训练 (FAT) 因其能够以更少的计算资源实现具有竞争力的鲁棒性而受到关注。现有的 FAT 方法通常采用统一策略,平等地优化所有训练数据,而没有考虑不同样本的影响,这导致了不平衡的优化。然而,这种不平衡在 FAT 领域尚未得到探索。在本文中,我们对 FAT 中的不平衡问题进行了全面研究,并观察到其性能方面存在明显的类别差异。这种差异可以从干净精度和鲁棒精度之间的一致性角度体现出来。基于分析,我们将观察到的错位和差异主要归因于 FAT 中的不平衡优化,这促使我们自适应地优化不同的训练数据以增强鲁棒性。具体来说,我们考虑了差异和错位。首先,我们引入了自知识引导正则化,根据每个类别的训练状态为其分配不同的正则化权重,从而减轻类别差异。此外,我们提出了自知识引导标签松弛,根据训练精度调整标签松弛,从而减轻错位并提高鲁棒性。通过结合这些方法,我们制定了自知识引导 FAT (SKG-FAT),利用训练过程中自然生成的知识来增强对抗鲁棒性,而不会影响训练效率。在四个标准数据集上进行的大量实验表明,SKG-FAT 提高了鲁棒性并保持了具有竞争力的干净精度,优于最先进的方法。