arXiv:2503.23893v1 类型: cross
摘要: 可再生能源强烈依赖于当地的和大范围的天气情况。超季节到季节(S2S)预报——超过两周,直到两个月——可以为能源部门提供重要的经济社会优势。本研究旨在利用带classifier-free指导的扩散模型增强表面风速预测,以细化S2S预报。我们提出了DiffScale,一种能够精细处理空间信息,在不同的分辨率和预报时效进行细化的扩散模型。利用天气先验知识作为扩散模型生成过程的指导,我们采用条件概率的角度来细化S2S预报。我们旨在直接估计目标S2S预报在不同空间分辨率和预报时效下的密度,而无需自回归或序列预测,从而实现一种高效且灵活的模型。我们设计了一个合成实验,将欧洲中期天气预报中心(ECMWF)的粗糙分辨率的风速S2S预报细化到ERA5重分析数据的较高分辨率,后者作为高分辨率目标。DiffScale 的创新之处在于其能够细化任意的缩放因子,使其能够跨各种网格分辨率和预报时效进行泛化——无需重新训练模型——同时修正模型错误,使其成为改进S2S风速预报的一种多功能工具。我们在预测质量上取得了显著改进,超越了基线方法直到第3周。
arXiv:2503.23888v1 Announce Type: cross
摘要:面部编辑修改面部的外观,这对于个人照片的定制和增强起着关键作用。尽管在文本驱动的面部编辑方面已经取得了显著的成功,但它们仍然面临重大挑战,因为没有任何一个模型能够同时满足多样性、可控性和灵活性的特点。为了解决这一挑战,我们提出了一种基于文本的面部编辑框架——MuseFace,该框架仅依赖于文本提示来实现面部编辑。具体而言,MuseFace 结合了文本到掩码扩散模型和语义意识面部编辑模型,能够直接从文本生成精细粒度的语义掩码并执行面部编辑。文本到掩码扩散模型为框架提供了多样性与灵活性,而语义意识面部编辑模型则确保了框架的可控性。我们的框架可以生成精细粒度的语义掩码,使得精确的面部编辑成为可能,极大地增强了面部编辑模型的可控性和灵活性。广泛的实验表明,MuseFace 实现了卓越的高保真性能。
arXiv:2503.23886v1 声明类型: cross
摘要:关系数据库设计会根据用户的要求生成一个模式,该模式定义了表结构及其相关的联系。将需求转化为准确的模式涉及多个非平凡的子任务,需要数据库专业知识和特定领域的知识。这对于自动化关系数据库设计提出了独特的挑战。现有的努力主要基于定制的规则或传统的深度学习模型,通常会产生次优的模式。最近,大型语言模型(LLMs)在各个领域智能应用开发方面取得了显著的进步。在本文中,我们提出了一种名为 SchemaAgent 的统一多智能体框架,用于自动生成高质量的数据库模式。SchemaAgent 是第一次使用大型语言模型进行模式生成,通过为智能体分配特定的角色并使其有效协作以完善各自的子任务,模拟手工模式设计的工作流程。模式生成是一个简化的流程框架,直接应用多智能体框架可能会导致错误累积的影响。为了解决这个问题,我们引入了专门的反思和检查角色,并结合了一种创新的错误检测和纠正机制,以识别并纠正各个阶段的问题。为了评估,我们引入了一个名为 \textit{RSchema} 的基准数据集,包含超过 500 对需求描述和模式。在该基准数据集上的实验结果表明,我们的方法在关系数据库模式生成方面优于主流的大型语言模型。
arXiv:2503.23875v1 公告类型: cross
摘要:多机器人系统的控制策略的传统开发过程复杂且劳动密集,经常缺乏适应动态任务的灵活性。这激发了自动创建控制策略方法的研究。然而,这些方法需要反复迭代地手工构建和改进目标函数,从而延长了开发周期。本文介绍了 \textit{GenSwarm},这是一种端到端系统,利用大型语言模型根据简单的自然语言用户指令自动生成和部署多机器人任务的控制策略。作为一种多语言代理系统,GenSwarm 实现了零样本学习,能够快速适应改变或未见过的任务。代码策略的白箱性质确保了极高的可重复性和可解释性。凭借其可扩展的软件和硬件架构,GenSwarm 支持在模拟和真实世界多机器人系统中高效地部署策略,实现从指令到执行的端到端功能,对于机器人专家和非专家都有潜在的价值。所提出的 GenSwarm 系统的代码已上线:https://github.com/WindyLab/GenSwarm。
arXiv:2503.23862v1 声明类型: cross
摘要:数字病理图像在医学诊断中发挥着重要作用,但其超高的分辨率和大的文件大小对存储、传输和实时可视化提出了重大挑战。为了解决这些问题,我们提出了CLERIC,这是一个专门为全切片图像(WSIs)设计的新型基于深度学习的图像压缩框架。CLERIC结合了可学习的提升方案和先进的卷积技术,以提高压缩效率同时保留关键的病理细节。我们的框架在分析阶段使用提升方案变换将图像分解为低频和高频组件,从而实现更结构化的潜在表示。这些组件通过并行编码器进行处理,其中包含可变形残差块(DRB)和循环残差块(R2B),以提高特征提取和空间适应性。合成阶段应用逆提升变换进行有效的图像重建,以确保高保真的细颗粒组织结构恢复。我们在数字病理图像数据集上评估了CLERIC,并将其性能与最先进的学习图像压缩(LIC)模型进行了比较。实验结果表明,CLERIC在率-失真(RD)性能方面表现出色,显著减少了存储需求,同时保持了高诊断图像质量。我们的研究强调了基于深度学习的压缩在数字病理中的潜在价值,促进了高效的数据管理和长期存储,并确保无缝集成到临床工作流程和AI辅助诊断系统中。代码和模型可在以下链接获取:https://github.com/pnu-amilab/CLERIC。
arXiv:2503.23830v1 交叉公告类型: cross
摘要: 多模态大规模语言模型(MLLMs),例如GPT-4o,正在获得显著的关注。在探索MLLM训练过程中,我们发现了一种现象——模态组成不一致(Modality Composition Incoherence),即某一模态的比例在不同示例中显著变化。这种现象加剧了mini-batch不平衡带来的挑战,导致数据并行(DP)实例之间的GPU利用率不均衡,并严重降低了MLLM训练的效率和可扩展性,最终影响训练速度并阻碍对MLLM的进一步研究。
为了解决这些挑战,我们引入了OrchMLLM,一个旨在缓解模态组成不一致导致的MLLM训练低效性的全面框架。首先,我们提出了Batch Post-Balancing Dispatcher技术,这是一种有效地解决顺序数据mini-batch不平衡的方法。此外,我们还整合了MLLM Global Orchestrator到训练框架中,以协调多模态数据并解决模态组成不一致带来的问题。我们在各种不同大小的MLLM上评估了OrchMLLM,展示了其效率和可扩展性。实验结果表明,使用OrchMLLM在2560个H100 GPU上训练一个具有三种模态的84B MLLM时,能实现Model FLOPs Utilization(MFU)为41.6%,在吞吐量上比Megatron-LM高出多达3.1倍。
arXiv:2503.23820v1 交叉类型: cross
摘要:反事实推理是人类认知和决策的基础,经常被视为因果学习的“圣杯”,其应用范围从解释机器学习模型到促进算法公正。尽管在因果模型明确定义的语境中反事实推理已经被广泛研究,但在现实世界中的因果建模常常受到模型和参数不确定性、观测噪声以及混沌行为的阻碍。在这些环境下的反事实分析的可靠性至今仍很少被探索。在本文中,我们探讨了在结构因果模型框架下的反事实推理的局限性。具体来说,我们通过实验研究了反事实序列估计,并指出了它变得越来越不可靠的情况。我们发现,如低程度的模型不确定性或混沌动力学等现实假设可能会导致反直觉的结果,包括预测与真实反事实轨迹之间巨大的偏差。这篇工作提醒我们在混沌和不确定的环境中应用反事实推理时要谨慎行事。此外,它还提出了一个问题:某些系统是否可能对回答关于其行为的反事实问题存在根本上的局限性。
arXiv:2503.23819v1 宣布类型: cross
摘要:基于医学影像的深度学习诊断AI系统开始提供与人类专家相似的性能。然而,这些数据需求量大且复杂的系统本质上是黑盒结构,因此在像医疗保健这类高风险应用中难以被采纳。由于缺乏透明度的问题,在这些大型自监督基础模型中表现得尤为突出,这些模型在数百万数据点上进行训练,以在一系列下游任务中提供稳健的一般泛化能力,但它们生成的嵌入通过一个不可解释的过程实现,因此对于临床应用来说不易于信任。为解决这一紧迫的问题,我们使用符合性分析来量化基于视觉变换器(ViT)的基础模型在不同患者人口统计学(性别、年龄和种族)方面对皮肤病变分类任务的预测不确定性,同时使用多个公共基准数据集。这种方法的一个重要优势是,符合性分析独立于方法,并不仅在整体人口层面提供覆盖率保证,还为每个个体提供不确定性评分。我们还在模型训练过程中使用了一种模型无关的动力学F1评分采样方法,这有助于稳定类别不平衡,并研究了这种偏差缓解步骤对不确定性量化(UQ)的影响。因此,我们展示了如何将这种方法作为公平性指标来评估基础模型(Google DermFoundation)的功能嵌入的稳健性,从而促进临床AI的信任度和公平性。
arXiv:2503.23803v1 类型: cross
摘要:近年来,软件工程代理在自动化程序改进方面的表现令人瞩目。然而,它们对闭源或资源密集型模型的依赖在私有环境中带来了重大的部署挑战,引发了关键问题:\textit{如何部署可实现相匹配的代码推理性能的开源LLM?}
为此,我们提出了一种统一的测试时计算扩展框架,该框架利用增加的推理时计算而非更大的模型。该框架结合了两种互补的策略:内部TTC和外部TTC。内部方面,我们引入了一种利用真实世界软件仓库上下文的开发轨迹合成方法,以启动多阶段推理过程,如故障定位和补丁生成。我们进一步通过拒绝抽样来提高轨迹质量,严格评估轨迹的准确性和复杂性。外部方面,我们提出了一种新的基于开发过程的搜索策略,该策略由奖励模型和执行验证引导。这种方法在关键开发决策点实现了有针对性的计算分配,克服了现有“仅端点验证”方法的局限性。
我们在SWE-bench Verified上的评估表明,我们的\textbf{32B模型实现了46%的问题解决率},超过了诸如DeepSeek R1 671B和OpenAI o1等更大模型。此外,我们还在SWE代理中实证验证了测试时计算扩展现象,发现\textbf{模型在面临愈加复杂的问题时动态分配更多的令牌},有效地增强了推理能力。我们已公开发布所有训练数据、模型和代码,以促进未来的研究。https://github.com/yingweima2022/SWE-Reasoner
arXiv:2503.23798v1 类型: cross
摘要:各种层跳过方法已被提出以加速大语言模型(LLMs)中的标记生成。然而,它们忽略了这样一个基本问题:不同标记生成时的计算需求如何变化?在此工作中,我们介绍了一种FlexiDepth方法,该方法能够动态调整用于文本生成的Transformer层数量。通过引入一个插件路由器和适配器,FlexiDepth能够在不修改原始参数的情况下实现LLMs的自适应层跳过。将FlexiDepth引入Llama-3-8B模型实现了32层中跳过8层,并同时保持100%的基准性能。实验结果表明,LLMs中计算需求显著依赖于标记类型。具体而言,生成重复标记或固定短语需要较少的层,而生成涉及计算或高不确定性标记则需要更多层。有趣的是,这种自适应分配模式与人类直觉相吻合。为了推进该领域的研究,我们开源了FlexiDepth以及记录了FlexiDepth层分配模式的数据集,供未来探索使用。