arXiv:2503.24354v2 宣告类型: replace-cross
摘要:参数生成已作为一种新颖的神经网络开发范式出现,在通过合成高质量模型权重直接替代传统神经网络训练方面展示了前景。在低秩适应(LoRA)用于演化(即,不断更新)的大语言模型(LLMs)的背景下,这种方法承诺在不需要昂贵的重新训练的情况下实现高效的适应。然而,现有的方法在同时实现可扩展性和可控性方面面临关键限制。在本文中,我们引入了$\texttt{ORAL}$,这是一种全新的**条件递归扩散**框架,以解决这些挑战。$\texttt{ORAL}$结合了一种新颖的条件机制,将模型架构和文本任务规范集成在一起,使生成特定任务的LoRA参数成为可能,这些参数可以无缝地在演化基础模型之间进行转移。我们的方法成功地扩展到具有数十亿参数的大语言模型,并保持了可控性。通过使用五种预训练的LLMs进行的七个语言任务、四个视觉任务和三个多模态任务的广泛实验,我们展示了$\texttt{ORAL}$生成了高质量的LoRA参数,其性能与传统的训练版本相当或更优。
arXiv:2503.23830v2 宣告类型: replace-cross
摘要:多模态大型语言模型(MLLMs),如GPT-4o,正引起广泛关注。在探索MLLM训练的过程中,我们发现了模态组成不一致性这一现象,即某种模态的比例在不同示例中变化剧烈。这加剧了应对小批量不均衡的挑战,导致数据并行(DP)实例间的GPU利用率不均衡,并严重降低了MLLM训练的效率和可扩展性,最终影响训练速度并妨碍对MLLM的进一步研究。
为应对这些挑战,我们引入了OrchMLLM,这是一种全面框架,旨在减轻由模态组成不一致性引起的MLLM训练中的低效率。首先,我们提出了批后平衡调度器(Batch Post-Balancing Dispatcher),这是一种有效消除序列数据中小批量不均衡的技术。此外,我们将MLLM全局调度器集成到训练框架中,以协调多模态数据并解决模态组成不一致性引起的问题。我们在各种MLLM规模下评估了OrchMLLM,展示了其效率和可扩展性。实验结果表明,当在2560个H100 GPU上训练一个包含三种模态的84B MLLM时,OrchMLLM的模型FLOPs利用率(MFU)达到了41.6%,比Megatron-LM的吞吐量高3.1倍。
arXiv:2503.21718v3 通知类型: replace-cross
摘要:我们研究了最后一层的异常维度,即对大多数输入表现出极端激活的维度。我们表明,异常维度在许多现代语言模型中出现,并将其功能追溯到经常预测频繁出现的词的经验法则。我们进一步展示了当这种经验法则在上下文中不适当时,模型可以通过将剩余维度分配一个平衡权重来阻止这种经验法则。我们还调查了哪些模型参数增强了异常维度,并在训练过程中它们何时出现。我们得出结论,异常维度是许多不同模型发现的一种专门机制,用于实现有用的最大值预测经验法则。
arXiv:2503.19887v2 宣告类型: replace-cross
摘要:最近在人工智能能力方面的进步加剧了人们对人工智能系统可能对国家安全构成威胁的担忧,例如,使得恶意行为者更容易对關鍵國家基礎設施進行網絡攻擊,或者通過失去對自主人工智能系统的控制。在此同時,美国联邦立法者提出了初步的"人工智能事件制度",以识别和应对类似威胁。在本文中,我们整合了这两个趋势,并提出了一项旨在应对人工智能系统潜在国家安全威胁的合法强制性人工智能事件制度的提案。我们首先在文中介绍了“安全关键”这一概念,以描述对国家安全构成极端风险的医生,然后论证“安全关键”描述了民用核能、航空、生命科学双重用途研究以及前沿人工智能开发。接着,我们详细介绍了我们的人工智能事件制度提案,通过展示其与美国其他“安全关键”领域在地事件制度的相似性来证明每项提案组件的合理性。最后,我们勾勒了一个假设情景,展示了我们提出的这种人工智能事件制度如何应对人工智能网络攻击事件。我们提出的这种人工智能事件制度分为三个阶段。第一阶段围绕什么是“人工智能事件”的新型定义展开,并建议人工智能提供商在部署前沿人工智能系统之前必须创建一个“国家安全案例”。第二和第三阶段明确了人工智能提供商应向政府机构报告事件,并且政府机构应参与修改人工智能提供商的安全和安全程序,以应对未来对国家安全的威胁。
arXiv:2503.09046v2 宣告类型: replace-cross
摘要:视觉变换器模型展现了巨大的潜力,但仍然难以为人脑所理解,这在其实用应用中提出了挑战和风险。尽管先前研究试图通过输入归因和神经元作用分析来揭开这些模型的神秘面纱,但在考虑层级信息以及在整个模型中的信息流路径方面仍然存在明显的差距。在本文中,我们探讨了视觉变换器中具有影响力神经元路径的重要性,这是一种从模型输入到输出的路径,对模型推理的影响最大。我们首先提出了一种联合影响度量方法,用于评估一组神经元对模型结果的贡献。并通过一种逐层寻找最具影响力的神经元的方法,高效地在目标模型中发现从输入到输出的关键神经元路径。我们的实验证明,与现有基准解决方案相比,我们方法在寻找沿此路径流动的信息的最具影响力的神经元路径方面表现出优越性。此外,通过这些神经元路径的展示,我们发现视觉变换器在处理同一类别图像信息方面具有特定的内部工作机制。进一步分析了这些神经元对图像分类任务的影响,展示了找到的神经元路径已经保留了模型在下游任务的能力,这可能也有助于实际应用中的模型修剪。该项目网站包括实现代码,可访问 https://foundation-model-research.github.io/NeuronPath/。
arXiv:2503.08295v2 宣告类型: replace-cross
摘要:扩散模型在多个领域取得了最先进的性能,近期的发展使其能够应用于离散数据。然而,在无法获取显式奖励函数的情况下,将离散扩散模型与特定任务的需求对齐仍然是一个挑战。本文中,我们引入了离散扩散DPO(D2-DPO),这是首次将直接偏好优化(DPO)应用于以连续时间马尔可夫链形式表述的离散扩散模型。我们的方法推导出一种新的损失函数,该函数可以直接使用偏好数据调整生成过程,同时保持对参考分布的忠实性。我们通过结构化的二元序列生成任务验证了D2-DPO的有效性,展示了该方法能够有效地将模型输出与偏好对齐,同时保持结构上的有效性。我们的结果表明,D2-DPO 可以实现可控的调整,而无需使用显式的奖励模型,使其成为基于强化学习的方法的一种实用替代方案。未来的研究将探索将D2-DPO 扩展到更复杂的生成任务,包括语言建模和蛋白质序列生成,以及研究替代噪声计划的可能性,如均匀噪声,以提高其在不同应用中的灵活性。
arXiv:2503.05696v2 宣告类型: 替换-交叉
摘要: 许多强化学习(RL)算法需要大量的数据,这在频繁与操作系统交互不可行或高保真模拟昂贵或不可用的应用程序中限制了其使用。与此同时,低保真模拟器—如降阶模型、启发式奖励函数或生成的世界模型—可以廉价地为RL训练提供有用的数据,即使它们对于直接模拟到现实世界的转移来说太粗糙了。我们提出了一种多保真度策略梯度(MFPG)框架,该框架将目标环境的少量数据与大量的低保真模拟数据混合,形成针对方针策略梯度的无偏、低方差估计器(控制变量)。我们通过开发两种策略梯度算法的多保真度变体—REINFORCE和近端策略优化—来实现该框架。在一系列模拟机器人基准问题上的实验结果表明,当目标环境样本有限时,MFPG能够在使用仅高保真数据的基线中获得高达3.9倍的更高奖励,并且在提高策略梯度的训练稳定性方面表现更佳。此外,即使基线得到更多的高保真样本—最多10倍目标环境的交互次数—MFPG仍然能够与它们匹敌或超越它们。最后,我们观察到,当低保真环境与目标环境差异巨大时,MFPG仍能够训练出有效的策略。MFPG不仅提供了一种高效的模拟到现实世界转移的新范式,还提供了一种管理策略性能与数据收集成本之间权衡的原理性方法。
arXiv:2503.05639v3 宣告类型: replace-cross
摘要:视频修复,旨在恢复受损的视频内容,已经取得了显著进展。尽管取得了这些进展,现有的方法无论是在通过光学流和感受野先验传递未遮罩区域的像素,还是在时间维度上扩展图像修复模型时,都面临着在单一模型中生成完整遮罩对象或在背景上下文保留和前景生成之间平衡竞争目标的挑战。为了解决这些限制,我们提出了一种新颖的双流架构 VideoPainter,该架构结合了一个高效的上下文编码器(仅占主干参数的6%),用于处理遮罩视频并注入主干感知的背景上下文线索,任何预训练的视频 DiT 都可以生成语义一致的内容,且便于即插即用。这种架构分离显著减少了模型的学习复杂性,同时使关键背景上下文的精确整合成为可能。我们还引入了一种新颖的目标区域 ID 重采样技术,使任何长度的视频修复成为可能,极大地增强了其实用性。此外,我们利用当前的视觉理解模型建立了一个可扩展的数据集管道,贡献了 VPData 和 VPBench,以促进基于分割的视频修复训练和评估。这是迄今为止最大的视频修复数据集和基准,包含超过 39 万条多样化的片段。以修复作为管道基础,我们还探索了包括视频编辑和视频编辑对数据生成在内的下游应用,显示出竞争力的性能和明显的实用前景。广泛的实验表明,在八个关键指标下,包括视频质量、遮罩区域保留和文本一致性方面,VideoPainter 在任意长度视频修复和编辑方面表现出优越的性能。
arXiv:2502.19217v2 通知类型: replace-cross
摘要:在数字病理学中开发临床有用的动力单元级分析工具仍然具有挑战性,主要原因在于数据集粒度的限制、标注不一致、高计算需求以及难以将新技术整合到工作流程中。为了解决这些问题,我们提出了一种解决方案,通过创建一种轻量级、可扩展的动力单元分割和分类模型来提高数据质量、模型性能和易用性。首先,我们通过交叉重新标注更新数据标签,以细化PanNuke和MoNuSAC的动力单元注释,生成一个包含七种不同动力单元类型的统一数据集。其次,我们利用H-Optimus基础模型作为固定编码器,以改进同时进行分割和分类任务的特征表示。第三,为了应对基础模型的计算需求,我们通过知识蒸馏减少模型大小和复杂性,同时保持可比的性能。最后,我们将蒸馏后的模型集成到QuPath这款广泛使用的开源数字病理学平台中。结果显示,与基于CNN的模型相比,基于H-Optimus的模型在分割和分类性能上有所提高。具体而言,平均 $R^2$ 从0.575提高到0.871,平均 $PQ$ 分数从0.450提高到0.492,表明更好地与实际细胞数量对齐,并提高了分割质量。蒸馏后的模型在保持性能可比的同时,参数数量减少了48倍。通过减少计算复杂性并集成到工作流程中,这种方法可能会对诊断产生显著影响,减轻病理学家的工作负担,并改善结果。尽管该方法表现出潜力,但在临床部署之前仍需进行广泛的验证。
arXiv:2502.15152v2 通告类型: replace-cross
摘要: 半监督语义分割(SSSS)旨在通过利用大量的未标记数据来改进分割性能,同时只有限的数量的标记样本。现有方法常常遭受耦合问题,即过度依赖初始标记数据导致学习效果不佳;确认偏见问题,即错误预测会反复强化自身;以及由有限的边界意识和模糊的边缘提示引起的边界模糊。为了解决这些问题,我们提出了CW-BASS,一种新颖的SSSS框架。为了减轻错误预测的影响,我们为伪标签分配了置信度权重。此外,我们利用边界划定技术,尽管这些技术在弱监督语义分割(WSSS)中已被广泛探索,但在SSSS中仍然未被充分利用。具体而言,我们的方法:(1)通过置信度加权损失减少耦合,该损失根据伪标签的预测置信度分数来调整伪标签的影响;(2)通过动态阈值机制减轻确认偏见,该机制根据模型性能学习过滤伪标签;(3)通过边界感知模块解决边界模糊,该模块在对象边缘附近细化分割;(4)通过置信度衰减策略减少标签噪音,在训练过程中逐步细化伪标签。在Pascal VOC 2012和Cityscapes上的广泛实验表明,CW-BASS达到了最佳性能。值得注意的是,CW-BASS在Cityscapes下的一个具有挑战性和未充分探索的数据集拆分(1/30,3.3%),即100张图像中,实现了65.9%的mIoU,这突显了其在有限标签设置中的有效性。我们的代码可在https://github.com/psychofict/CW-BASS获取。