arXiv:2406.06621v2 通告类型: 交叉替换
摘要:我们提出了LinkQ系统,该系统利用大型语言模型(LLM)通过自然语言问答来促进知识图谱(KG)查询的构建。传统的方法往往需要对图查询语言有详细的了解,限制了即使专家用户从知识图谱中获取有价值的见解的能力。LinkQ通过实施一个多步骤协议简化了这一过程,该协议中LLM解释用户的问题,然后系统地将其转换为标准查询。LinkQ帮助用户逐步细化任何开放性问题为具体问题,支持针对性分析和探索性分析。此外,LinkQ通过确保仅从现实世界的KG数据中回答用户的问题来防止LLM产生虚构的输出。我们通过与五位KG从业者进行的定性研究展示了LinkQ的有效性。我们的结果显示,从业者认为LinkQ对于知识图谱问题解答是有效的,并希望未来有更多基于LLM的探索性数据分析系统。
arXiv:2406.02345v2 通知类型: replace-cross
摘要:音频和视觉信号通常同时发生,人类具有将这两种模态的信息关联和同步的天生能力。最近,一个名为音频-视觉分割(AVS)的具有挑战性的问题引起了关注,旨在为场景中的声音对象生成分割图。然而,目前提出的方法未能充分整合音频和视觉信息,计算成本极其高昂。此外,不同阶段的输出也未被充分利用。为了促进这项研究,我们引入了一种新型的渐进自信掩蔽注意网络(PMCANet)。该网络利用注意机制揭示音频信号与视觉帧之间的内在关联。此外,我们设计了一个高效且有效的交叉注意模块,通过选择查询令牌来增强语义感知。这一选择基于网络的多阶段预测输出,由信心驱动的单元确定。实验表明,与现有的AVS方法相比,我们的网络在所需计算资源较少的情况下表现出更优的效果。该项目的代码可在以下地址获得:https://github.com/PrettyPlate/PCMANet。
arXiv:2406.01561v4 公告类型: 替换-交叉
摘要:在大量图文对的基础上训练的基于扩散的过程文本转图像生成模型已经展示了生成与文本描述相符的逼真图像的能力。然而,这些模型的一个显著局限性是其缓慢的样本生成过程,这需要通过同一网络进行迭代细化。为了解决这一问题,我们提出了一种数据驱动的引导蒸馏方法,该方法可以在无法访问实际训练数据的情况下高效地蒸馏预训练的稳定扩散模型,这些数据常常受限于法律、隐私或成本问题。该方法通过增加一项基于分数身份蒸馏(Score identity Distillation, SiD)的新颖策略Long and Short Classifier-Free Guidance (LSG) 来改进,这种策略不仅在评估预训练的扩散模型时应用了分类器无引导(Classifier-Free Guidance, CFG),还在训练和评估假分数网络时也应用了这种策略。我们使用基于分数身份的近似值结合我们提出的引导策略优化了基于模型的显式分数匹配损失,在实际计算中进行优化。通过仅使用由其一阶生成器生成的合成图像进行训练,我们的数据驱动蒸馏方法快速提高了FID和CLIP得分,同时保持了竞争力的CLIP得分,实现了在无数据情况下FID的最先进性能。值得注意的是,对Stable Diffusion 1.5的一次性蒸馏在COCO-2014验证集上的FID值为8.15,是数据驱动设置下的最低记录值。我们的代码和检查点可在 https://github.com/mingyuanzhou/SiD-LSG 获取。
arXiv:2405.21063v3 公告类型: replace-cross
摘要: 分支界限法(BaB)是神经网络(NN)验证中最有效的技术之一。然而,现有的用于神经网络验证的分支界限法主要集中在具有分段线性激活的神经网络上,特别是ReLU网络。本文中,我们基于线性边界传播方法,开发了一个名为GenBaB的一般框架,以在具有通用架构的神经网络上执行分支界限法,以验证通用非线性。为了决定要分支的神经元,我们设计了一种新的分支启发式方法,利用线性边界作为捷径来高效估计分支后的潜在改进。为了为通用非线性函数确定非平凡的分支点,我们提出在验证过程中通过查找表高效利用预先优化的分支点。我们展示了GenBaB在验证各种神经网络的有效性,包括具有Sigmoid、Tanh、Sine和GeLU等激活函数的神经网络,以及涉及LSTMs和Vision Transformers等多维非线性操作的神经网络。我们的框架还允许验证通用非线性计算图,并使其能够在简单的神经网络之外的应用中发挥作用,特别是在AC Optimal Power Flow (ACOPF)方面。GenBaB是最新版的$\alpha$,$\beta$-CROWN的一部分,$\alpha$,$\beta$-CROWN是2023年和2024年国际神经网络验证竞赛(VNN-COMP)的获奖者。在GitHub上可以找到重复实验的代码:https://github.com/shizhouxing/GenBaB。
arXiv:2405.18929v2 宣言类型: replace-cross
摘要:半监督异常检测旨在通过使用少量标记异常数据以及未标记数据来提高异常检测性能,这种方法引起了关注。现有的半监督方法假设大部分未标记数据是正常的,并通过最小化未标记数据的异常评分并最大化标记异常数据的异常评分来训练异常检测器。然而,在实践中,未标记数据往往受到异常的污染。这削弱了最大化异常评分的效果,并阻止我们提高检测性能。为了解决这个问题,我们提出了一种深度正负未标记异常检测框架,该框架结合了正负未标记学习与深度异常检测模型(如自编码器和深度支持向量数据描述)。我们的方法能够使用未标记数据和标记异常数据来近似正常数据的异常评分。因此,即使没有标记正常数据,我们的方法也能通过最小化正常数据的异常评分并最大化标记异常数据的异常评分来训练异常检测器。在各种数据集上的实验表明,我们的方法在检测性能上优于现有方法。
arXiv:2405.17475v2 通知类型: 替换-交叉
摘要:一幅图常常胜过千言万语,某些图像可以讲述丰富而深刻的故事情节。这些故事情节能否通过图像描述出来呢?来自民间传说类别的图像,如神话、民间舞蹈、文化标志和象征,对每种文化都是至关重要的。我们的研究比较了四种流行的多模态模型(GPT-4V、Gemini Pro Vision、LLaVA 和 OpenFlamingo)在识别此类图像中的文化特异性信息以及生成准确且文化敏感的图像描述方面的性能。我们还提出了一个新的评估指标,文化意识评分(CAS),用于衡量图像描述中的文化意识程度。我们提供了一个带有文化背景和上下文的真实标签数据集 MOSAIC-1.5k,并提供了一个带有分配文化意识评分的标签数据集,可以用于未见过的数据。为科学研究和许多实际应用创建合适的图像描述是有价值的。我们展望这项工作将促进全球在人工智能应用中对文化敏感性的更深层次整合。通过公开数据集和文化意识评分,我们旨在促进该领域的进一步研究,鼓励开发更具备文化意识的人工智能系统,这些系统尊重并庆祝全球多样性。
arXiv:2405.15973v4 通知类型: 替换交叉
摘要:大型视觉-语言模型(LVLMs)通过对特定数据集进行视觉指令微调,在视觉问答和推理任务中取得了令人印象深刻的成绩。然而,在视觉和语言模态的对齐方面仍然存在显著的改进空间。现有的方法通常依赖于外部模型或数据,导致对齐结果不稳定且不可控。在这篇论文中,我们提出了SIMA,一个自我改进框架,能够在没有任何外部依赖的情况下增强视觉和语言模态的对齐。SIMA利用现有的视觉指令微调数据集自我生成响应,并采用了上下文自我批评机制来构建偏好对以进行微调。最关键的是,我们的方法通过设计有效的批评提示使LVLMs能够充当批评者,从而消除了使用外部指令数据进行额外微调的需要。我们引入了自我批评过程中的三种新型视觉度量标准来引导判断,显著提高了自我批评的准确性。通过在14个幻觉和综合基准测试中进行广泛的实验,我们演示了SIMA显著提升了LVLM的性能,并优于之前的方法,实现了更好的模态对齐。
arXiv:2405.14108v5 宣告类型: replace-cross
摘要:配体结合对蛋白质结构及其体内功能的影响为现代生物医学研究和生物技术发展(如药物发现)提供了众多意义。尽管最近已经提出了几种用于蛋白质-配体对接的深度学习(DL)方法和基准,但到目前为止,还没有任何先前的研究系统地研究了最新的对接和结构预测方法在(1)使用预测的(apo)蛋白质结构进行对接(例如,适用于新蛋白质);(2)同时结合多个(辅因子)配体到给定靶点蛋白质(例如,用于酶设计);以及(3)没有事先了解结合口袋(例如,用于未知口袋的一般化)这一广泛适用的情境中的表现。为了使对接方法的实际应用能力有更深入的理解,我们引入了PoseBench,这是第一个全面的适用于广泛适用的蛋白质-配体对接的基准。PoseBench使研究人员能够严格且系统地评估使用Both Primary Ligand和Multi-ligand基准数据集对apo-to-holo蛋白质-配体对接和蛋白质-配体结构预测的DL方法进行评估,后者我们首次向DL社区引入。通过使用PoseBench,我们发现:(1)DL合折方法通常优于类似的传统对接和DL基线方法,但像AlphaFold 3这样的热门方法仍然受到新颖蛋白质序列的预测目标的挑战;(2)某些DL合折方法对输入多序列比对高度敏感,而其他方法则不然;(3)当预测新颖或多重配体蛋白质目标时,DL方法难以在结构准确性与化学特异性之间取得平衡。相关代码、数据、教程和基准结果可在https://github.com/BioinfoMachineLearning/PoseBench获取。
arXiv:2405.02765v3 宣告类型: 交叉替换
摘要:知识编辑方法(KEs)可以更新语言模型从预训练中学到的过时或不准确的知识。然而,KEs 可能会被用于恶意应用,例如插入错误信息和有害内容。了解生成的输出是基于编辑后的知识还是预训练中的第一手知识,可以提高用户对生成模型的信任度,并提供更多的透明度。受此驱动,我们提出了一项新的任务:在语言模型中检测编辑后的知识。给定一个编辑后的模型和一个由提示从编辑后的模型检索出的事实,目标是将知识分类为未经编辑(基于预训练)或经过编辑(基于后续编辑)两类。我们使用四种 KEs、两个大规模语言模型(LLMs)和两个数据集实例化了此任务。另外,我们提出将隐藏状态表示和概率分布作为检测特征。我们的结果表明,使用这些特征作为简单 AdaBoost 分类器的输入,可以建立强大的基线。该分类器只需要少量数据,并且即使在跨域设置中也能保持其性能。最后,我们发现区分经过编辑的知识和未经编辑但相关的知识更加具有挑战性,这突显了进一步研究的必要性。我们的工作为解决恶意模型编辑奠定了基础,这与大规模语言模型的强大生成能力密切相关,是需要重点关注的关键挑战之一。
arXiv:2405.00319v2 更新类型: replace-cross
摘要:数据增强作为一种流行的正则化技术,被用来应对神经网络中的过拟合挑战。虽然自动生成的数据增强在图像分类任务中取得了成功,但其在时间序列问题中的应用,尤其是在长期预测方面,却受到相对较少的关注。为了解决这一问题,我们提出了一种名为TSAA的时间序列自动增强方法,该方法既高效又易于实现。该方法通过两步过程解决相关联的层次优化问题:首先,对非增强模型进行有限的训练周期,随后进行迭代分割处理。在这个迭代过程中,我们交替通过贝叶斯优化确定鲁棒的增强策略,并在同时改进模型时排除次优的运行。在针对具有挑战性的单变量和多变量预测基准问题的广泛评估中,TSAA始终优于几种鲁棒基线,这表明其有潜力集成到预测管道中。代码可以在以下仓库获取:https://github.com/azencot-group/TSAA。