arXiv:2412.00029v2 宣告类型: 修改
摘要:低秩适应(LoRA)层已经成为了高效模型微调的一种有前途的方法,但它们的能力和局限性还没有被完全探索。本文:1)调查了LoRA层是否能在增强推理+计划能力方面发挥作用这一基本问题;2)我们引入了哈希链推理(HashChain Reasoning),一种新颖的评估数据集,用于确定性测试推理能力。通过针对GPT-2进行系统性的消融研究,我们展示了推理能力似乎主要存在于低秩空间中,可以通过LoRA层有效地增强。训练后的LoRA矩阵的有效秩分析表明,相对于计划任务,推理任务需要2-3倍更低的秩要求,这为LoRA层在何处有效提供了背景信息。这也为推理基础性地偏好低参数空间来进行泛化提供了证据。
arXiv:2409.07510v4 宣告类型: 替换
摘要: 数据缺失是科学界长期关注的实际挑战。在这篇论文中,我们提出了Shades-of-NULL,一个负责任的数据缺失值插补评估套件。我们的工作有两个创新之处:(i) 我们 modelling 现实且社会相关性高的缺失值场景,不仅超越了 Rubin 的经典完全随机缺失 (MCAR)、随机缺失 (MAR) 和非随机缺失 (MNAR) 设置,还包括了多机制缺失 (当数据中同时存在不同缺失模式时) 和机制转变 (当训练和测试之间缺失机制发生变化时);(ii) 我们基于插补质量和公平性以及插補后训练和测试模型的预测性能、公平性和稳定性,全面评估插补器。我们使用Shades-of-NULL进行了一项大规模实证研究,涉及29,736个实验管道,并发现虽然不存在适用于所有缺失类型的最佳插补方法,但在缺失场景的组合、插补器选择以及预测模型结构的基础上,预测性能、公平性和稳定性之间会产生有趣的权衡。我们公开发布了Shades-of-NULL,以便研究人员能够在合理且社会意义上具有重要意义的场景中,使用广泛的标准严格评估数据缺失值插补方法。
arXiv:2407.11784v2 优化类型: 替换
摘要:多模态大型模型的出现推动了人工智能的发展,带来了前所未有的性能和功能水平。然而,由于模型为中心和数据为中心的发展途径历来是孤立的,优化这些模型仍然具有挑战性,这导致了次优的结果和资源利用效率低下。为应对这一挑战,我们提出了一种新的集成数据-模型共同开发的沙盒套件。该沙盒提供了一个反馈驱动的实验平台,能够有效地迭代和指导数据和模型的优化。我们提出的“探查-分析-优化”工作流,在诸如使用CLIP进行图像-文本预训练、使用类似LLaVA的模型进行图像到文本生成以及使用基于DiT的模型进行文本到视频生成等多模态任务的实际案例中得到了验证,产生了可转移且显著的性能提升,例如在VBench排行榜上名列前茅。广泛的实验还揭示了数据质量、多样性、模型行为和计算成本之间相互作用的宝贵见解。所有代码、数据集和模型均已开源,以促进未来的研究和应用,这些应用由于缺乏专门的共同开发基础设施而原本是不可行的。
arXiv:2406.15007v3 公告类型: 重写
摘要:本文介绍了RouteFinder,这是一个全面的基座模型框架,用于解决不同的车辆路线问题(VRP)变体。我们的核心理念是,一个用于VRP的基座模型应该能够通过将每个变体视为一个带有不同属性的一般问题的子集来表示这些变体。我们提出了一种统一的VRP环境,能够高效地处理任何属性组合。RouteFinder模型利用现代基于变压器的编码器和全局属性嵌入来改进任务表示。此外,我们引入了两种强化学习技术以增强多任务性能:混合批处理训练,这使得可以同时对不同变体进行训练;以及多变体奖励标准化,以平衡不同的奖励尺度。最后,我们提出了高效的适配器层,这使得可以针对具有未见过属性的新变体进行微调。在48个VRP变体上的 extensive 实验表明,RouteFinder 在性能上优于最近的先进学习方法。代码:https://github.com/ai4co/routefinder。
arXiv:2502.03465v1 交叉类型: cross
摘要: 我们考虑如何以时空一致性的方式高效地表示随意拍摄的单目视频。现有的方法主要依赖于2D/2.5D 技术,将视频视为时空像素的集合,但由于缺乏时间连贯性和显式的3D结构,在处理复杂运动、遮挡和几何一致性方面存在困难。从单目视频作为动态3D世界的投影这一启示出发,我们探索通过时空中的连续高斯原始流来以固有的3D形式表示视频。本文中,我们提出了一种名为NutWorld的新颖框架,可以在单次前向传播中高效地将单目视频转换为动态的3D高斯表示。NutWorld的核心是一个结构化的时空对齐高斯(STAG)表示,使得无需优化即可实现有效的深度和流正则化,从而进行场景建模。通过全面的实验,我们展示了NutWorld在实现高保真视频重建质量的同时,还能够支持各种实时下游应用。相关演示和代码可以在https://github.com/Nut-World/NutWorld获取。
arXiv:2502.03460v1 加速类型: 交叉
摘要: 小型语言模型(SLMs)由于其在边缘设备中广泛应用而引起了学术界和工业界的广泛关注。为了获得性能强大的SLMs,传统的做法要么从头开始预训练模型,这导致了巨大的计算成本,要么压缩或修剪现有的大型语言模型(LLMs),这会导致性能下降,并且在与预训练相比时存在不足。在本文中,我们研究了同时包含结构化修剪和模型训练的加速方法家族。我们发现:1)逐层自适应修剪(Adapt-Pruner)在LLMs中非常有效,并且在现有修剪技术上带来了显著的改进;2)配备进一步训练的自适应修剪可以生成与从头开始预训练相当的模型;3)逐步修剪通过交替进行修剪和训练,并且一次仅移除一小部分神经元(约5%)带来了非显而易见的性能提升。LLaMA-3.1-8B上的实验结果表明,与传统的修剪方法(如LLM-Pruner、FLAP和SliceGPT)相比,Adapt-Pruner在常识基准上的平均准确率提高了1%-7%。此外,Adapt-Pruner通过从较大的模型中进行修剪,将MobileLLM-125M在MMLU基准上的性能恢复到与600M相当的水平,仅使用了其更大数据量的1/200的token,并发现了一个新的1B模型,在多个基准上超过了LLaMA-3.2-1B。
arXiv:2502.03450v1 宣布类型: cross
摘要: 场景图已 emerge 作为一种结构化且可序列化的表现形式,用于大型语言模型(LLMs)进行基于空间的推理。在此工作中,我们提出了 SG-RwR,这是一种基于场景图推理和规划的 Schema-Guided Retrieve-while-Reason 框架。我们的方法采用两个合作的代码编写 LLM 代理:一个是(1)推理器,用于任务规划和信息查询生成,另一个是(2)检索器,根据查询提取相应的图信息。两个代理进行迭代协作,实现序贯推理和对图信息的自适应关注。与以往工作不同的是,两个代理仅被提示场景图模式而非完整的图数据,这通过限制输入 token 减少了幻觉,并促使推理器生成抽象的推理轨迹。根据轨迹,检索器在理解模式的基础上,以编程方式查询场景图数据,允许动态的全局关注图,从而增强推理和检索之间的对齐。通过在多个仿真环境中进行实验,我们展示了我们的框架在数值问答和规划任务中超越了现有的基于 LLM 的方法,并且即使在没有代理级示范的情况下,也可以从任务级别的少量示例中受益。项目代码将被发布。
arXiv:2502.03444v1 宣告类型: cross
摘要: 近期在潜变量扩散模型方面的进展表明了其在高分辨率图像合成中的有效性。然而,从分词器获取潜变量空间以更好地学习和生成扩散模型的特性仍然被忽视。从理论和实验的角度来看,我们发现生成质量的改进与具有更好结构的潜分布密切相关,例如具有较少的高斯混合模式和更多区分性特征的分布。受这些见解的启发,我们提出了一个利用掩码建模以学习语义丰富潜空间同时保持重建保真度的自编码器(AE)。广泛的实验证明了我们的分析,表明自编码器的变分形式并非必要,仅凭AE本身生成的辨别性潜空间就能在使用128个分词单元的情况下达到ImageNet生成的最先进性能。MAETok实现了显著的实际改进,使得在训练速度提高76倍和512x512生成的推理吞吐量提高31倍的情况下,gFID达到1.69。我们的研究结果表明,潜空间的结构而非变分约束对于有效的扩散模型至关重要。代码和训练模型已发布。
arXiv:2502.03429v1 公告类型: cross
摘要:统一多模态大型语言模型(U-MLLMs)在端到端流水线中展示了令人印象深刻的视觉理解和生成性能。与仅生成模型(例如,Stable Diffusion)相比,U-MLLMs 可能会在其输出中引发新的偏见问题,这些偏见可能受到其统一能力的影响。考虑到传播有害刻板印象的未探索风险,这一差距尤为令人担忧。在本文中,我们对最新的 U-MLLMs 进行基准测试,并发现大多数模型表现出显着的人口统计学偏见,如性别和种族偏见。为了更好地理解和缓解这一问题,我们提出了一种“定位-修复”策略,其中我们审计并展示了每个模型组件受到偏见影响的情况。我们的分析显示,偏见主要源自语言模型。更有趣的是,我们观察到 U-MLLMs 中存在“部分对齐”现象,其中理解偏见似乎最少,但生成偏见仍然显著。因此,我们提出了一个新颖的平衡偏好模型,通过合成数据来平衡人口统计学分布与语义保真度。实验表明,我们的方法在减少人口统计学偏见的同时保留了语义保真度。我们希望我们的发现强调了未来对 U-MLLMs 进行更全面的解释和去偏见策略的需求。
arXiv:2502.03426v1 Announce Type: cross
摘要:通过姿态指导的人像图像合成(PGPIS)可以从源图像生成保持主体身份的同时采用指定的目标姿态(例如,骨架)的图像。虽然基于扩散的PGPIS方法在姿态变换过程中有效地保留了面部特征,但在整个扩散过程中,它们往往难以准确地从源图像保持服装细节。这种限制在源姿态和目标姿态之间存在较大差异时尤为明显,对服装行业中的PGPIS应用造成了严重影响,因为服装风格的保留对于版权保护至关重要。我们的分析表明,这一限制主要源于条件扩散模型的注意力模块无法充分捕捉和保留服装图案。为了应对这一限制,我们提出了一种人类解析引导的注意力扩散方法,这是一种新型方法,能够有效保留面部和服装的外观,同时生成高质量的结果。我们提出了一种对人类解析敏感的Siamese网络,该网络由三个关键组件组成:双相同的UNets(TargetNet用于扩散去噪,SourceNet用于源图像嵌入提取)、人类解析引导融合注意力(HPFA)以及CLIP引导注意力对齐(CAA)。HPFA和CAA模块可以适应地并有效地将面部和服装模式嵌入目标图像生成中。在室内服装检索基准和最新的人在野外编辑数据集中进行的大量实验表明,与13种基线方法相比,我们的方法在保留源图像中的面部和服装外观方面具有显著优势。