arXiv:2410.14103v3 宣布类型: replace-cross
摘要:深度学习模型在降水预测方面取得了显著进展。然而,它们仍然面临着准确捕捉雷达图像空间细节的重大挑战,尤其是在高降水量强度的地区。这种限制导致在不同降水量强度下预测雷达回波图像的空间定位准确性降低。为了解决这一挑战,我们提出了一种名为多任务潜在扩散模型(MTLDM)的创新降水预测方法。MTLDM的核心思想在于认识到降水雷达图像是由多种成分组成的,每种成分对应不同的降水强度。因此,我们采用了分而治之的策略,根据降水强度将雷达图像分解成多个子图像,并分别对这些成分进行建模。在预测阶段,MTLDM通过使用训练好的潜在空间降雨扩散模型整合这些子图像表示,然后通过一个多任务解码器进行解码,从而生成最终的降水预测。在使用MRMS数据集进行的实验评估中,证明了所提出的MTLDM方法超越了现有的先进技术,降水成功率指数(CSI)提高了13-26%。
arXiv:2410.13567v2 通知类型: replace-cross
摘要: 衣着变化的人重新识别(CC-ReID),也称为长期人重新识别(LT-ReID),是计算机视觉中一个关键且具有挑战性的研究主题,近年来引起了广泛关注。然而,由于构建CC-ReID数据的成本较高,现有的数据驱动模型难以在有限的数据上有效训练,导致过拟合问题。为了解决这一挑战,我们提出了一种低成本、高效的生成模拟CC-ReID任务特定场景监控的可控且高质量合成数据的流水线。特别是,我们构建了一个新的自注释CC-ReID数据集,名为Cloth-Changing Unreal Person(CCUP),包含6,000个身份标识、1,179,976张图像、100个摄像头和每个人26.5套服装。基于该大规模数据集,我们引入了一种有效的且可扩展的预训练-微调框架,以增强传统CC-ReID模型的一般化能力。广泛的实验表明,在预训练过程中使用CCUP数据集,并在基准数据集如PRCC、VC-Clothes和NKUP上进行微调后,两种典型模型TransReID和FIRe^2均优于其他最先进的模型。CCUP数据集可在以下链接获取:https://github.com/yjzhao1019/CCUP。
arXiv:2410.12893v3 通告类型: replace-cross
摘要: 自动问题生成是一个关键任务,涉及通过考虑参与度、教育价值和激发批判性思维的能力来评估问题的质量。这些方面需要人类级别的理解和判断,而当前的自动化系统缺乏这种能力。然而,对于由自动化问题生成系统生成的问题的大型样本进行人工评估成本高且不切实际。因此,我们提出了一种名为 MIRROR(多大语言模型迭代审查与响应以优化评分)的新型系统,该系统利用大语言模型(LLMs)来自动化评估由自动化问题生成系统生成的问题的过程。我们实验了几种最先进的大语言模型,如GPT-4、Gemini和Llama2-70b。我们观察到,使用基于反馈的方法MIRROR来评估问题时,人工评价指标的得分(包括相关性、适宜性、新颖性、复杂性和文法正确性)有所提高,倾向于接近人类基线得分。此外,我们观察到在使用我们提出基于反馈的方法MIRROR的情况下,GPT-4与人类专家之间的皮尔逊相关系数相比直接提示评分时有所提高。误差分析显示,我们提出的方法MIRROR在显著提高相关性和适宜性方面发挥了重要作用。
arXiv:2409.17027v3 宣告类型: replace-cross
摘要:"当然,我愿意为你生成一个故事:拉拉船长站在她那忠实的船上 Maelstrom's Fury 的船舵上,凝视着无尽的海洋。 [...] 拉拉的眼中盈满了泪水,她意识到一个苦涩的事实——她为了短暂的财富而牺牲了一切,失去了船员、家人,甚至自己深爱的人。”尽管由大规模语言模型生成的这个故事非常引人入胜,但仍不禁会思考——如果模型将主人公设定为“梅维船长”会怎样?我们无法得知。最先进的大规模语言模型是无状态的——它们不保留任何内部记忆或状态。给定一个提示,它们会使用自回归过程生成一系列词元作为输出。因此,它们无法对已生成的词元的反事实替代进行推理。在这项工作中,我们的目标是增强它们的这一能力。为此,我们开发了一种基于 Gumbel-Max 结构因果模型的因果词元生成模型。我们的模型允许任何大规模语言模型以几乎不增加额外成本的方式进行反事实词元生成,其实现极其简单,无需微调或提示工程。我们在 Llama 3 8B-Instruct 和 Ministral-8B-Instruct 上实现了该模型,并对反事实生成的文本进行了定性分析和定量分析。最后,我们展示了反事实词元生成在偏见检测方面的应用示例,揭示了大规模语言模型构建的世界模型的有趣洞察。
arXiv:2409.16434v5 宣告类型: 替换交叉
摘要:参数高效调优(PEFT)在预训练模型规模扩大和需要对其进行调优以实现更好的下游性能的情况下吸引了广泛关注。尽管新出现了许多PEFT方法,但系统地研究它们的性能和适用场景的缺乏使得诸如“何时应用PEFT”和“使用哪种方法”等问题仍悬而未决,特别是在视觉识别方面。在本文中,我们对代表性的PEFT方法与视觉变换器(Vision Transformers)进行了统一的经验研究。我们系统地调整了它们的超参数,以公平地比较其在下游任务中的准确性。我们的研究提供了实用的用户指南,并揭示了几个新的见解。首先,如果仔细调整,不同PEFT方法在低样本数基准VTAB-1K上的准确性相似,这包括一些被认为较差的简单方法,如仅调优偏差项。其次,尽管具有类似的准确性,我们发现不同的PEFT方法在高信心预测上表现不同,这可能是由于它们不同的归纳偏见所致。这种不一致(或互补性)为集成方法提供了机会,我们对此进行了初步尝试。第三,超出常用的低样本数任务,我们发现PEFT在多样本数情况下也有所用,性能与全量调优相当或更优,但参数使用量显著减少。最后,我们研究了PEFT在保留预训练模型对分布转移的鲁棒性(如CLIP)方面的能力。尽管如此,PEFT方法单独优于全量调优。然而,通过权重空间集成,全量调优可以在目标分布和分布转移性能之间取得更好的平衡,这为鲁棒PEFT的未来研究方向提供了建议。
arXiv:2409.00092v2 宣告类型: 替换交叉
摘要:在传统的创新实践中,概念和知识产权的生成往往是迭代集成的。这两个过程都要求对先进的技术领域知识有复杂而深刻的理解。尽管现有的大型语言模型(LLMs)具有大量的预训练知识,但在创新概念生成方面往往由于缺乏生成所必需的专业知识而表现不佳。为了弥合这一关键缺口,我们提出了一种新颖的知识微调(KFT)框架,以赋予基于LLM的AI自主挖掘、理解和应用特定领域知识和概念的能力,即概念和专利生成。我们提出的PatentGPT集成了知识注入预训练(KPT)、特定领域的监督微调(SFT)以及基于人类反馈的强化学习(RLHF)。广泛的评估表明,PatentGPT在专利相关的基准测试中显著优于最先进的模型。我们的方法不仅为数据驱动的创新提供了新的见解,还为技术背景下微调LLM开辟了一条新途径。我们还讨论了未来AI生成发明的管理及政策含义。
arXiv:2408.04811v4 安全部分:替换-跨领域
摘要:尽管最先进的(SOTA)广泛部署的大语言模型(LLMs)具有重要的能力,但由于其安全过滤器的有效性不足,仍有可能因名为监狱逃脱攻击的提示变换而对社会造成伤害。当前对LLM安全性的评估方法,通过模板提示的数据集和评估管道进行,未能充分覆盖监狱逃脱攻击的广泛和多样化集合,导致不安全的LLMs被广泛部署。最近的研究表明,新的监狱逃脱攻击可以通过组合方式推导出来;然而,一种形式化的可组合表示方法,可以实现通过程序合成方法探索监狱逃脱攻击的大量组合空间,这一方法尚未被提出。我们引入了h4rm3l,一种新型的方法,通过一种人类可读的领域特定语言(DSL)来解决这一缺口。我们的框架包括:(1)h4rm3l DSL,它形式化地将监狱逃脱攻击表示为参数化字符串转换原语的组合。(2)一种使用多臂赌博算法高效生成针对目标黑盒LLM优化的监狱逃脱攻击的合成器。(3)h4rm3l红色团队软件工具包,它结合了上述两个组成部分和一个强契合人类判断的自动化有害行为分类器。我们通过合成一个包含2656个成功的新颖监狱逃脱攻击的数据集,并将这些攻击与6个SOTA开源和专有LLM模型的一部分进行基准测试,展示了h4rm3l的有效性。结果显示,h4rm3l生成的攻击具有多样性和成功率,尤其是90%以上的SOTA LLMs在成功率上超过了现有文献中的监狱逃脱攻击。
arXiv:2407.16602v2 Announce Type: replace-cross
摘要:我们将功能加速应用于政策镜像梯度(PMD)算法的一般家族,这些算法涵盖了强化学习(RL)中一系列新颖且基本的方法。利用对偶性,我们提出了一种基于动量的PMD更新方法。通过功能途径,我们的方法与策略参数化无关,并适用于大规模优化,将以前的动量应用作为策略参数级别的特殊情况包含在内。我们从理论上分析了该方法的几种性质,并通过数值消融研究进行了补充,该研究旨在说明与这些算法设计选择相对应的价值多面体上的策略优化动力学。我们进一步数值地描述了几种对功能加速有重要意义的问题设置特征,并最后探究了对学习机制的影响。
arXiv:2407.15362v3 通要注意型: 替换跨领域
摘要:在任务无意识的基础模型领域,计算病理学在促进各种下游临床任务方面取得了令人瞩目的进展。尽管取得了有前景的性能,但仍存在一些挑战。首先,前人工作采用的是仅视觉或图像-描述数据,忽视了病理学家提供的更具有临床真实性信息的病理报告以及基因表达谱,这些分别提供了不同的知识,适用于多样的临床应用。其次,目前病理FMs在病理切片层面取得的进展主要集中在patch层面,而patch层面预训练的限制上下文未能捕捉到整张切片的模式。即使最近的滑块级别FMs仍然难以为patch表示提供整张切片的上下文。在这项研究中,我们首次开发了一种整合三类模态(病理切片、病理科报告和基因表达数据)的病理基础模型,由此产生了来自32种癌症类型的10,275名患者的26,169张切片级模态对,共计超过1.16亿张病理切片图像。为了利用这些数据服务于CPath,我们提出了一种新颖的整张切片级别的多模态预训练范式,将多模态整张切片上下文注入到patch表示中,命名为多模态自我TAught PRetraining (mSTAR)。提出的范式彻底改变了CPath的预训练工作流程,使病理FMs能够获得整张切片的上下文。据我们所知,这是第一次尝试在整张切片上下文中整合三种模态以增强病理FMs的努力。为了系统地评估mSTAR的能力,我们建立了涵盖97种实际肿瘤学任务的最广泛的肿瘤学基准谱系,包括15类肿瘤学应用中的7个类别。
arXiv:2407.03146v3 宣告类型: replace-cross
摘要:数据增强在不同机器学习任务中得到了广泛应用,并展现了其优势。然而,近期观测到,它在多类分类任务中可能产生不公平的影响。虽然数据增强通常会提高整体性能(因此对许多类别是有益的),但它实际上可能会对其他类别产生负面影响,这在某些应用场景中可能是问题。在本文中,为应对这一现象,我们提出了一种依赖类别的乘性权重方法CLAM。为了推导出这种方法,我们首先将分类器的训练形式化为一个非线性优化问题,旨在同时最大化各个类别的性能并平衡这些性能。通过将该优化问题重新表述为一种对抗性两人博弈,我们提出了一种新的乘性权重算法,并证明了其收敛性。有趣的是,我们的形式化还揭示出,数据增强的类别依赖性效果并不仅由数据增强本身造成,而实际上是一种普遍现象。在五个数据集上的实验结果表明,学习得到的分类器的性能确实更为公平地分配到各个类别上,对平均准确率的影响也较小。