我们介绍了 VideoLISA,一个基于视频的多模态大型语言模型,旨在解决视频中语言指导推理分割问题。利用大型语言模型的推理能力和世界知识,并通过 Segment Anything 模型增强,VideoLISA 根据语言指令在视频中生成时间一致的分割掩码。现有的基于图像的方法,例如 LISA,由于额外的时态维度而难以处理视频任务,这需要时态动态理解和跨帧一致的分割。VideoLISA 通过将稀疏密集采样策略集成到视频-LLM 中来解决这些挑战,该策略在计算约束下平衡了时态上下文和空间细节。此外,我们提出了一种使用专门设计的标记的 One-Token-Seg-All 方法,使模型能够跨多个帧分割和跟踪物体。在各种基准测试(包括我们新引入的 ReasonVOS 基准测试)上的大量评估表明,VideoLISA 在涉及复杂推理、时态理解和物体跟踪的视频物体分割任务中表现出色。虽然 VideoLISA 专为视频优化,但它也显示出对图像分割的有希望的泛化能力,揭示了它作为语言指导物体分割的统一基础模型的潜力。代码和模型将在以下地址提供:https://github.com/showlab/VideoLISA。
部分标签学习 (PLL) 是一种典型的弱监督学习任务,假设每个训练实例都标注了一组包含真实标签的候选标签。最近的 PLL 方法采用基于识别的消歧来减轻误报标签的影响,并取得了可观的性能。然而,它们要求测试集中所有类别都出现在训练集中,忽略了现实应用中会不断出现新类别的事实。为了解决这个问题,本文重点研究了增强类别的部分标签学习 (PLLAC) 问题,其中一个或多个增强类别在训练阶段不可见,但在推断阶段出现。具体来说,我们提出了一种具有理论保证的 PLLAC 无偏风险估计器,该估计器通过区分已知类别的分布和未标记数据的分布来估计增强类别的分布,并且可以配备任意 PLL 损失函数。此外,我们对估计器的估计误差界限进行了理论分析,保证了经验风险最小化器在训练数据数量趋于无穷大时收敛到真实风险最小化器。此外,我们在优化目标中添加了一个风险惩罚正则化项,以减轻由负经验风险引起的过度拟合问题。在基准、UCI 和真实世界数据集上的大量实验表明了所提出方法的有效性。
安卓恶意软件攻击对移动用户构成严重威胁,迫切需要自动检测系统。在恶意软件检测中使用的各种工具中,图表示(例如,函数调用图)在表征安卓应用程序的行为方面发挥了关键作用。然而,尽管在恶意软件检测中取得了令人印象深刻的性能,但当前最先进的基于图的恶意软件检测器容易受到对抗性样本的影响。这些对抗性样本是通过对正常的恶意输入引入特定扰动精心制作的。为了防御对抗性攻击,现有的防御机制通常是检测器的补充,并存在重大局限性,通常依赖于对抗性样本的先验知识,并且无法有效防御未知类型的攻击。在本文中,我们提出了MASKDROID,这是一种功能强大的检测器,具有强大的判别能力来识别恶意软件,并且对对抗性攻击具有非凡的鲁棒性。具体而言,我们在基于图神经网络 (GNN) 的框架中引入了掩蔽机制,迫使MASKDROID使用一小部分(例如,20%)随机选择的节点恢复整个输入图。这种策略使模型能够理解恶意语义并学习更稳定的表示,从而增强其对对抗性攻击的鲁棒性。在以图结构内部依赖项的形式捕获稳定恶意语义的同时,我们进一步采用对比模块来鼓励MASKDROID为良性和恶意类别学习更紧凑的表示,以提高其从良性应用程序和对抗性样本中检测恶意软件的判别能力。
在数字时代,理解集文本、复杂布局和图像于一体的视觉丰富文档的能力至关重要。传统的关键信息提取 (KIE) 方法主要依赖于光学字符识别 (OCR),这往往会导致显著的延迟、计算开销和错误。当前的先进图像到文本方法绕过了 OCR,但通常会生成没有对应视觉基础的纯文本输出。本文介绍了 STNet(See then Tell Net),这是一种新颖的端到端模型,旨在提供具有相关视觉基础的精确答案。与众不同的是,STNet 利用一个独特的标记来观察相关的图像区域,并辅以一个解码器来解释与该标记相关的物理坐标。该标记位于答案文本的开头,允许模型首先查看——观察与输入问题相关的图像区域——然后说出——提供清晰的文本响应。为了增强模型的视觉能力,我们收集了大量结构化的表格识别数据集。利用 GPT-4 的先进文本处理能力,我们开发了 TVG(带视觉基础的表格问答)数据集,它不仅提供了基于文本的问答 (QA) 对,而且还为这些对引入了精确的视觉基础。我们的方法证明了 KIE 性能的重大进步,在 CORD、SROIE 和 DocVQA 等公开可用的数据集上取得了最先进的结果。代码也将公开提供。
对话式查询生成旨在从对话历史中生成搜索查询,这些查询随后用于从搜索引擎中检索相关知识,以帮助基于知识的对话系统。先前模型旨在最大化黄金查询的可能性,但它们存在数据饥渴问题,在推理时往往会从对话历史中删除重要概念并生成无关的概念。我们将这些问题归因于过度关联现象,即大量黄金查询与对话主题间接相关,因为注释者在生成这些黄金查询时可能会无意识地利用其背景知识进行推理。我们仔细分析了这种现象对预训练的 Seq2seq 查询生成器的负面影响,然后提出了有效的实例级加权策略,从多个角度缓解这些问题。在两个基准数据集(Wizard-of-Internet 和 DuSinc)上的实验表明,我们的策略有效地减轻了负面影响,并导致了显著的性能提升(自动指标和人工评估结果分别提升了 2%-5%)。进一步分析表明,我们的模型从对话历史中选择了更好的概念,并且比基线模型的数据效率高出 10 倍。代码可在 https://github.com/DeepLearnXMU/QG-OverAsso 获取。
尼泊尔语的自动文本摘要是自然语言处理 (NLP) 中一个尚未探索的领域。尽管大量的研究致力于抽取式摘要,但抽象式摘要领域,特别是针对尼泊尔语等资源匮乏的语言,仍然很大程度上未被探索。本研究探讨了使用多语言 Transformer 模型,特别是 mBART 和 mT5,通过抽象式摘要为尼泊尔新闻文章生成标题。该研究通过从多个尼泊尔新闻门户网站进行网页抓取来创建摘要数据集,从而解决了与尼泊尔语文本摘要相关的关键挑战。然后使用不同的策略对这些多语言模型进行了微调。随后使用 ROUGE 分数和人工评估来评估微调模型的性能,以确保生成的摘要连贯且传达了原文的意思。在人工评估中,参与者被要求根据相关性、流畅性、简洁性、信息量、事实准确性和覆盖范围等标准,从模型生成的摘要中选择最佳摘要。在使用 ROUGE 分数进行评估时,发现使用 LoRA 模型的 4 位量化 mBART 在生成更好的尼泊尔新闻标题方面比其他模型更有效,并且在人工评估中,它被选中的比例为 34.05%,超过了为尼泊尔新闻标题生成创建的所有其他微调模型。
对比语言-图像预训练 (CLIP) 模型在传统的行人重识别 (ReID) 任务中表现出色,因为它在为行人图像生成文本描述方面具有固有优势。然而,将 CLIP 直接应用于相机内监督行人重识别 (ICS ReID) 会带来挑战。ICS ReID 要求在每个相机内进行独立的身份标记,而没有跨相机的关联。这限制了基于文本的增强效果。为了解决这个问题,我们提出了一种新颖的框架,称为基于 CLIP 的相机无关特征学习 (CCAFL),用于 ICS ReID。因此,设计了两个自定义模块来引导模型主动学习相机无关的行人特征:相机内判别学习 (ICDL) 和相机间对抗学习 (ICAL)。具体来说,我们首先为相机内行人图像建立可学习的文本提示,以获得后续相机内和相机间学习的关键语义监督信号。然后,我们设计 ICDL 通过考虑每个相机内的硬正例和硬负例来增加类间差异,从而学习相机内更细粒度的行人特征。此外,我们提出了 ICAL 通过惩罚模型从行人图像源自的相机预测能力来减少相机间行人特征差异,从而增强模型从不同视角识别行人的能力。在流行的 ReID 数据集上进行的大量实验证明了我们方法的有效性。特别是在具有挑战性的 MSMT17 数据集上,我们在 mAP 准确率方面达到了 58.9%,比最先进的方法高出 7.6%。代码将在以下地址提供:https://github.com/Trangle12/CCAFL。
X射线吸收光谱 (XAS) 是一种强大的表征技术,用于探测吸收原子的局部化学环境。然而,分析 XAS 数据存在着巨大的挑战,通常需要大量的、计算密集型的模拟,以及大量的领域专业知识。这些限制阻碍了快速、稳健的 XAS 分析管道的开发,而这些管道在高通量研究和自主实验中至关重要。我们通过一套用于 XAS 预测的迁移学习方法来解决这些挑战,每种方法都以独特的方式为提高准确性和效率做出贡献,如覆盖八种 3d 过渡金属 (Ti-Cu) 的 K 边谱数据库所示。我们的框架建立在三种不同的策略之上。首先,我们使用 M3GNet 来推导出吸收位点局部化学环境的潜在表示,作为 XAS 预测的输入,与传统的特征化技术相比,实现了高达一个数量级的改进。其次,我们采用分层迁移学习策略,在针对特定元素进行微调之前,跨元素训练一个通用的多任务模型。这种级联方法在元素级微调之后产生了比特定元素模型性能高出 31% 的模型。第三,我们实现了交叉保真度迁移学习,将一个通用模型改造成可以预测由不同保真度的模拟生成的谱图,而这些谱图具有更高的计算成本。这种方法将预测精度提高了 24%,超过了仅在目标保真度上训练的模型。我们的方法可扩展到更广泛元素的 XAS 预测,并提供了一个可推广的迁移学习框架,以增强材料科学中的其他深度学习模型。
表格平均奖励时序差分 (TD) 学习可能是平均奖励强化学习中最简单也是最基础的策略评估算法。自其发现至今已有 25 年之久,我们终于能够提供其长期期待的几乎必然收敛性分析。具体来说,我们是第一个证明在非常温和的条件下,表格平均奖励 TD 几乎必然收敛到一个样本路径相关的固定点。这项成功的关键在于一个新的关于具有马尔可夫和加性噪声的非扩张映射的一般随机逼近结果,该结果建立在随机 Krasnoselskii-Mann 迭代的最新进展之上。
语言模型通常从其训练数据中继承社会偏见。许多技术已被提出用于在预训练和微调阶段减轻这些偏见。然而,在特定任务上微调预训练的去偏语言模型可能会重新将偏见引入模型。此外,现有的针对特定任务的去偏方法要么 (i) 需要受保护属性(例如,年龄、种族或政治观点)的标签,而这些标签通常不可用,要么 (ii) 依赖于偏见指标,这限制了它们在性别去偏方面的适用性,因为它们依赖于性别特异词语。为了解决这个问题,我们提出了一种基于嵌入类间方差的新型去偏正则化技术。至关重要的是,我们的方法不需要属性标签,并且针对任何属性,从而解决了现有去偏方法的缺点。我们在编码器语言模型和三个数据集上的实验表明,我们的方法优于现有的依赖于目标属性标签的强大去偏基线,同时在目标任务上保持了性能。