arXiv:2411.08561v5 宣告类型: replace-cross
摘要:软件系统通常记录关键的运行时信息在日志中,以帮助故障排除。基于日志的异常检测已成为一个关键的研究领域,旨在通过日志数据识别系统问题,最终提高软件系统的可靠性。传统的深度学习方法往往难以捕捉嵌入在日志数据中的语义信息,而这些数据通常是以自然语言组织的。在本文中,我们提出了LogLLM,这是一种基于日志的异常检测框架,利用了大型语言模型(LLMs)。LogLLM 使用 BERT 从日志消息中提取语义向量,同时使用基于变压器解码器的模型 Llama 对日志序列进行分类。此外,我们引入了一个投影器,以对齐 BERT 和 Llama 的向量表示空间,确保对日志语义的一致理解。与传统的需要日志解析器提取模板的方法不同,LogLLM 使用正则表达式预处理日志消息,简化了整个过程。我们的框架通过一种新颖的三阶段训练流程进行训练,旨在提高性能和适应性。在四个公开数据集上的实验结果表明,LogLLM 超过了最先进的方法。即使处理不稳定的日志,它也能准确捕捉日志消息的语义意义并检测异常。
arXiv:2410.21491v2 通知类型: replace-cross
摘要:分布式学习(DL)通过使用多个节点来加速训练,从而使大规模模型的高效优化成为可能。随机梯度下降(SGD),作为关键的优化算法,在这一过程中发挥着重要作用。然而,通信瓶颈往往限制了可扩展性和效率,导致越来越多地采用压缩SGD技术来缓解这些问题。尽管压缩SGD可以在一定程度上解决通信开销问题,但它引入了信任性问题,因为节点之间的梯度交换容易受到梯度反转(GradInv)和成员推理攻击(MIA)等攻击的影响。压缩SGD的信任性尚未得到研究,留有很多关于其可靠性的未回答问题。
在本文中,我们对压缩SGD与未压缩SGD的信任性进行了评估。具体地,我们通过使用GradInv攻击进行了实证研究,发现压缩SGD在抵御隐私泄漏方面显著优于未压缩SGD。此外,我们的研究结果还表明,MIA可能不是一个评估分布式学习中隐私风险可靠的度量标准。
arXiv:2410.18194v2 宣告类型: replace-cross
摘要: 数据选择对于优化语言模型(LM)在特定任务上的性能至关重要,但现有的大多数方法未能有效地考虑目标任务分布。
当前的方法要么完全忽略了任务特定的要求,要么依赖于无法捕捉到如自动形式化或代码生成等任务所需的细微模式的近似方法。
那些确实考虑目标分布的方法往往依赖于简单、有时是噪音较大的表示,比如哈希n-gram特征,这可能导致碰撞并引入噪音。
我们引入了ZIP-FIT,这是一种数据选择框架,使用gzip压缩直接度量潜在训练数据与目标任务分布之间的对齐程度。
在广泛的自动形式化和Python代码生成评估中,ZIP-FIT显著优于最新的基准方法如DSIR和D4。
使用ZIP-FIT选择的数据训练的模型,在交叉熵损失上比基准方法低至85.1%,这表明更好的任务对齐可以导致更高效的学习。
此外,ZIP-FIT的数据选择速度比DSIR快65.8%,比D4快一个数量级。
值得注意的是,ZIP-FIT表明,小而对齐良好的数据集通常优于大但不那么有针对性的数据集,这表明少量高质量的数据优于大量低质量的数据。
我们的结果表明,任务感知的数据选择对于高效领域适应至关重要,并且压缩提供了一种衡量任务对齐的有原则的方法。
通过展示有针对性的数据选择可以显著提高特定任务性能,我们的工作提供了关于数据质量、任务对齐和模型学习效率之间关系的新见解。
arXiv:2410.15038v3 宣告类型: replace-cross
摘要:诊断和治疗皮肤疾病需要跨领域的高级视觉技能以及从多种成像模态中综合信息的能力。虽然当前的深度学习模型在从皮肤镜图像中诊断皮肤癌等特定任务上表现出色,但在满足临床实践中复杂的、多模态要求方面仍存在困难。在此,我们介绍了PanDerm,这是一个多模态皮肤科基础模型,通过在4种成像模态下从11家临床机构的超过200万张实际皮肤疾病图像中进行自我监督学习进行预训练。我们对28个多样化基准进行了评估,包括皮肤癌筛查、风险分层、常见和罕见皮肤状况的鉴别诊断、病灶分割、纵向监测、以及对转移和预后的预测。PanDerm在所有评估任务中均实现了最先进的性能,且在仅使用10%标记数据的情况下,经常优于现有模型。我们进行了三项读者研究以评估PanDerm的潜在临床应用价值。通过纵向分析,PanDerm在早期黑色素瘤检测方面的性能比临床医生高出10.2%,在皮肤镜图像上的皮肤癌诊断准确性提高了11%,并且在临床照片上的128种皮肤状况的鉴别诊断中提高了非皮肤科医生医疗提供者的16.5%。这些结果表明PanDerm有望在多种临床情景中改善患者护理,并且可以作为开发其他医疗专科多模态基础模型的模型,有可能加快人工智能支持在医疗保健中的集成。相关代码可以在 https://github.com/SiyuanYan1/PanDerm 获取。
arXiv:2410.14763v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)在解决众多医疗挑战方面展示了令人印象深刻的潜力。然而,在医学等高风险应用中部署LLMs带来了许多关注。其中一个主要的关注领域是LLMs在医疗应用中的偏见行为,导致对个人的不公正对待。为了推动负责任和有影响力的Med LLM部署,严格的评估是关键前提。由于不同医疗场景的巨大复杂性和变化性,该领域的现有工作主要依赖于使用手工制作的数据集进行偏见评估。在这项研究中,我们提出了一种新的方法,通过基于严格的医学证据自动生成测试用例来扩大这种偏见评估的规模。我们特别针对以下挑战:a) 偏见表征的领域特定性,b) 在生成测试用例时产生幻象,以及c) 健康结果与敏感属性的各种依赖关系。为此,我们提供了新的方法来解决这些挑战,并将这些方法整合进我们的生成管道中,使用医学知识图谱、医学本体和定制的通用LLM评估框架。通过一系列广泛的实验,我们展示了我们提出的方法生成的测试用例能够有效地在更大的和更灵活的规模上揭示Med LLM中的偏见模式,超过手工制作的数据集。我们使用我们的管道发布了一个大型偏见评估数据集,专门用于少量的医疗案例研究。我们的应用针对案例生成的现场演示可在 https://vignette.streamlit.app 获得。我们的代码也发布在 https://github.com/healthylaife/autofair 。
arXiv:2410.12877v2 宣告类型: 替换-交叉
摘要:语言模型在众多现实应用中的关键能力在于能够遵循指令。为了获得更深入的见解和更强的能力,我们从语言模型中衍生出指令特定的向量表示,并利用这些向量来引导模型。这些向量是通过指令存在和不存在时输入的激活差异计算得出的,这使我们能够采用模块化的方法来引导激活。我们展示了这种方法如何增强模型对输出格式、长度和词项的遵守能力,从而在推理时对遵循指令进行控制。我们在四个模型上的实验展示了我们如何使用激活向量来指导模型即使没有明确的指令也能遵循约束条件,并在有指令的情况下提升性能。此外,我们还探索了激活引导的组合性,成功地同时应用了多个指令。最后,我们展示了在指令调校模型上计算的引导向量如何转移到基模型以改善其性能。我们的研究结果表明,激活引导提供了一种实用且可扩展的方法来实现语言生成的精细控制。我们的代码和数据可在 https://github.com/microsoft/llm-steer-instruct 上获取。
arXiv:2410.07177v2 通告类型: 替换-交叉
摘要: 本研究旨在全面探讨构建自视点视频理解的多模态基础模型。为实现这一目标,我们在三个领域进行工作。首先,由于缺乏自视点视频理解的问答数据,我们基于人类标注的数据,在Ego4D上自动生成了从30秒到一小时不等长度的自视点视频的700万个高质量问答样本。这是迄今为止最大的自视点问答数据集之一。其次,我们贡献了一个具有629个视频和7026个问题的具有挑战性的自视点问答基准,用于评估模型在识别和记忆不同长度视频中视觉细节方面的能力。我们引入了一种新的去偏差评估方法,以帮助缓解在被评估模型中不可避免的语言偏差。第三,我们提出了一种专门的多模态架构,其中包括一种新颖的“记忆指针提示”机制。该设计包括一个全局概览步骤,以获得整个视频的总体理解并识别关键视觉信息,随后是利用关键视觉信息生成响应的回退步骤。这使模型能够更有效地理解扩展视频内容。凭借数据、基准和模型,我们构建了MM-Ego,一个在自视点视频理解方面表现出强大性能的自视点多模态大语言模型。
arXiv:2410.03974v2 宣告类型: replace-cross
摘要:从多个源聚集数据可以形式化为最优运输(Optimal Transport, OT)巴里辛尼中心问题,该问题旨在基于OT差异计算概率分布的平均值。然而,在现实场景中,数据测量中的离群值和噪声的存在显著妨碍了传统统计方法在估计OT巴里辛尼中心方面的性能。为了解决这一问题,我们提出了一种基于(半-)不平衡OT问题的对偶形式的新型可扩展方法,用于估算稳健的连续巴里辛尼中心。据我们所知,这是首次尝试在连续分布设置下开发稳健巴里辛尼中心算法的方法。我们的方法被构架为一个最小-最大优化问题,并且可以适应一般成本函数。我们严格建立所提方法的理论基础,并通过一系列示例实验展示了其对离群值和类别不平衡的鲁棒性。我们的源代码可在 https://github.com/milenagazdieva/U-NOTBarycenters 公开获取。
arXiv:2410.02761v4 宣告类型: replace-cross
摘要:生成式AI的快速发展是一把双刃剑,它不仅促进了内容创作,还让图像操纵变得更加容易且难以检测。尽管当前的图像伪造检测与定位(IFDL)方法通常都是有效的,但它们往往会面临两个挑战:\textbf{1)} 黑盒性质且检测原理未知,\textbf{2)} 在多样化的篡改方法(如Photoshop、DeepFake、AIGC-Editing)之间缺乏泛化能力。为了应对这些问题,我们提出了可解释的IFDL任务,并设计了FakeShield,这是一种多模态框架,能够评估图像的真实性、生成篡改区域mask,并基于像素级和图像级篡改线索提供鉴定基础。此外,我们利用GPT-4o增强现有的IFDL数据集,创建了多模态篡改描述数据集(MMTD-Set)以训练FakeShield的篡改分析能力。同时,我们引入了带有领域标签指导的可解释伪造检测模块(DTE-FDM)和多模态伪造定位模块(MFLM),以应对各种类型的篡改检测解释,并在详细的文本描述指导下实现伪造定位。广泛的实验表明,FakeShield有效地检测和定位了各种篡改技术,提供了比之前IFDL方法更具解释性和优越性的解决方案。代码可在https://github.com/zhipeixu/FakeShield 获取。
arXiv:2409.17091v2 宣布类型: replace-cross
摘要: 在医疗领域,可用的大规模数据集有限以及耗时的标注过程限制了深度模型的性能。基于扩散的生成增强方法为解决这一问题提供了一个有前景的解决方案,已在促进下游医疗识别任务方面证明了其有效性。然而,现有工作在具有挑战性的视频/3D 序列生成方面缺乏足够的语义和序列操控性,并且忽略了对合成样本质量的控制,导致不可靠的合成数据库,并严重影响了下游任务的性能。在本文中,我们提出了一种名为 Ctrl-GenAug 的新颖且通用的生成增强框架,该框架能够实现高度语义和序列定制化的序列合成,并抑制错误合成的样本,以辅助医疗序列分类。具体而言,我们首先设计了一个多模态条件引导序列生成器以可控地合成诊断促进型样本。集成了一个序列增强模块以增强生成样本的时间/立体一致性。然后,我们提出了一种噪声合成数据过滤器,用于在语义和序列层面抑制不可靠的情况。我们使用3个医疗数据集中的11个在3种范式下训练的网络进行了广泛的实验,全面分析了Ctrl-GenAug的有效性和通用性,特别是在未被充分代表的高风险群体和跨域条件下。