大型语言模型(LLM)的快速发展凸显了参数高效微调方法的需求,低秩适应(LoRA)成为一种流行的解决方案。尽管LoRA减少了可训练参数的数量,但在基础模型之上部署多个(特定于任务或用户)LoRA模块仍然会造成巨大的存储挑战。为了解决这个问题,我们利用理论推导,引入了一种新的低秩适应方法LoRA-XS(具有极少参数的低秩适应),该方法显著减少了可训练参数,同时展现出优越或具有竞争力的性能。LoRA-XS通过在冻结的低秩矩阵之间插入一个小型的可训练r x r权重矩阵来实现这一点,这些低秩矩阵是通过原始权重矩阵的奇异值分解(SVD)构建的。这个轻量级矩阵使得微调能够以大幅减少的存储需求进行,从而可以部署数百万个个性化模型,同时最大限度地减少内存开销。例如,与LoRA相比,LoRA-XS在7B模型中将可训练参数减少了100多倍。我们在各种基准测试(包括GLUE、GSM8K、MATH和八个常识推理数据集)上的评估表明,LoRA-XS的性能与LoRA和其他最新方法(如VeRA)相比具有竞争力甚至更好,同时参数效率显著提高。我们还对Transformer权重中奇异向量的重要性进行了广泛的消融研究,揭示了驱动LoRA-XS增强效率的潜在机制。这些发现表明,LoRA-XS不仅是一种存储高效的替代方案,而且是一种强大的工具,可以以前所未有的规模扩展和个性化LLM。
深度模型最近已成为解决偏微分方程(PDE)的有前景工具,被称为神经网络偏微分方程求解器。虽然从模拟数据或物理信息损失函数训练的神经网络求解器能够很好地解决偏微分方程,但它们主要局限于少数几种偏微分方程,例如具有有限系数集的特定方程。这限制了神经网络求解器对不同偏微分方程的泛化能力,阻碍了它们成为数值求解器的实用替代模型。在本文中,我们提出了通用偏微分方程求解器(Unisolver),它能够通过在一个新型Transformer模型上训练多样化数据并以不同的偏微分方程为条件来解决范围广泛的偏微分方程。Unisolver并非仅仅是扩大数据和参数规模,而是源于对偏微分方程求解过程的理论分析。我们的关键发现是,偏微分方程的解从根本上受到一系列偏微分方程组件的控制,例如方程符号、系数和边界条件。受偏微分方程数学结构的启发,我们定义了一套完整的偏微分方程组件,并将它们灵活地嵌入为Transformer偏微分方程求解器的域内(例如方程符号)和点内(例如边界)条件。通过将物理洞察与最新的Transformer进展相结合,Unisolver在三个具有挑战性的大型基准测试中取得了一致的最先进的结果,展现了令人印象深刻的性能提升和良好的偏微分方程泛化能力。
深度神经网络(DNN)模型决策背后的“隐藏”因果结构难以理解,这被称为因果不透明性。这导致人们无法依赖和验证最先进的基于DNN的系统,尤其是在高风险场景中。因此,规避DNN中的因果不透明性代表着深度学习、可解释性和因果关系交叉领域的一个关键开放性挑战。这项工作通过引入因果概念图模型(Causal CGMs)来解决这一差距,这是一种可解释性模型,其决策过程在设计上具有因果透明性。我们的实验表明,因果CGM可以:(i) 匹配因果不透明模型的泛化性能;(ii) 支持人工参与校正错误预测的中间推理步骤,不仅提高校正后的下游精度,而且提高特定实例所提供解释的可靠性;(iii) 支持干预和反事实场景的分析,从而提高模型的因果可解释性,并支持对其可靠性和公平性的有效验证。
自动竞价通过自动为广告商提供竞价,在促进在线广告方面发挥着至关重要的作用。强化学习 (RL) 已成为自动竞价的热门方法。然而,大多数现有的 RL 自动竞价方法都是通过马尔可夫决策过程 (MDP) 建模的,该过程假设马尔可夫状态转移。这种假设限制了其在长时域场景中的性能,并在处理高度随机的在线广告环境时使模型不稳定。为了解决这个问题,本文介绍了一种通过生成式建模进行自动竞价的新范式——人工智能生成竞价 (AIGB)。在这个范式中,我们提出了 DiffBid,一种用于竞价生成的条件扩散模型方法。DiffBid 直接模拟回报与整个轨迹之间的相关性,有效避免了长时域中跨时间步的误差传播。此外,DiffBid 还提供了一种通用的方法,用于生成在遵守特定约束的同时最大化给定目标的轨迹。在真实世界数据集上进行的大量实验以及在阿里巴巴广告平台上进行的在线 A/B 测试证明了 DiffBid 的有效性,实现了 GMV 增长 2.81% 和 ROI 增长 3.36%。
随着LLaMA和OpenAI GPT-3等大型语言模型的出现,上下文学习(ICL)因其有效性和效率而受到广泛关注。然而,ICL对提示中使用的演示示例的选择、顺序和表达方式非常敏感。基于检索的ICL方法试图通过利用检索器提取语义相关的示例作为演示来解决这个问题。虽然这种方法产生了更准确的结果,但其对各种对抗性攻击的鲁棒性(包括对测试样本、演示和检索数据的扰动)仍未得到充分探索。我们的研究表明,基于检索的模型可以增强对测试样本攻击的鲁棒性,其攻击成功率(ASR)比普通ICL降低了4.87%;然而,它们在演示方面表现出过度自信,导致演示攻击的ASR增加了2%。对抗性训练可以帮助提高ICL方法对对抗性攻击的鲁棒性;然而,在大型语言模型的背景下,这种训练方案可能成本过高。作为替代方案,我们引入了一种有效的免训练对抗防御方法DARD,该方法用受攻击的样本丰富示例池。我们证明,DARD在性能和鲁棒性方面均有所提高,比基线方法的ASR降低了15%。为了鼓励进一步的研究,我们公开了代码和数据:https://github.com/simonucl/adv-retreival-icl
强化学习 (RL) 在稀疏奖励领域存在样本效率低下的问题,并且在随机转移的情况下,这个问题更加突出。为了提高样本效率,奖励塑造是一种经过充分研究的方法,它可以引入内在奖励,帮助 RL 智能体更快地收敛到最优策略。然而,即使对于领域专家来说,为马尔可夫决策过程 (MDP) 中所有理想状态设计一个有用的奖励塑造函数也是一项挑战。鉴于大型语言模型 (LLM) 在大量自然语言任务中展现出令人印象深刻的性能,我们旨在回答以下问题:“我们能否使用 LLM 获得启发式方法来构建奖励塑造函数,从而提高 RL 智能体的样本效率?”为此,我们旨在利用现成的 LLM 为底层 MDP 的抽象生成一个计划。我们进一步使用这个 LLM 生成的计划作为启发式方法来构建下游 RL 智能体的奖励塑造信号。通过根据 MDP 的时间范围来表征抽象的类型,我们分析了使用 LLM 生成启发式方法(循环中是否包含验证器)的质量。我们在 BabyAI 环境套件、Household、Mario 和 Minecraft 领域中多个具有不同时间范围和子目标数量的领域进行的实验表明:1)使用和不使用验证器查询 LLM 生成奖励塑造启发式方法的优缺点;以及 2)在 LLM 生成的启发式方法的指导下,PPO、A2C 和 Q 学习的样本效率得到显著提高。
稀疏专家混合模型 (SMoE) 已广泛用于提高基于 Transformer 的基础模型的训练和推理效率,并取得了可喜的成果。然而,SMoE 的性能严重依赖于超参数的选择,例如专家的数量和要激活的专家数量(称为 top-k),这导致了大量的计算开销,因为需要搜索各种超参数配置来进行大量的模型训练。为了解决这个问题,我们引入了动态专家混合模型 (DynMoE) 技术。DynMoE 结合了:(1) 一种新颖的门控方法,使每个 token 都能自动确定要激活的专家数量;(2) 一个自适应过程,可在训练过程中自动调整专家的数量。在视觉、语言和视觉语言任务上的大量数值结果表明,与用于视觉和语言任务的 GMoE 以及用于视觉语言任务的 MoE-LLaVA 相比,我们的方法能够在激活较少参数的同时获得具有竞争力的性能。我们的代码可在 https://github.com/LINs-lab/DynMoE 获取。
预训练+微调范式是将大型语言模型 (LLM) 部署到各种下游应用中的基础。在此框架内,低秩自适应 (LoRA) 因其参数高效微调 (PEFT) 而脱颖而出,产生了大量可重复使用的特定任务 LoRA 适配器。然而,这种方法需要显式选择任务意图,这对于在嵌入单个 LLM 的多个现有 LoRA 适配器的情况下进行推理时的自主任务感知和切换提出了挑战。在这项工作中,我们介绍了 MeteoRA(多任务嵌入式 LoRA),这是一个可扩展且高效的框架,它通过全模式专家混合 (MoE) 架构将多个特定任务的 LoRA 适配器重用于基础 LLM。该框架还包括新颖的 MoE 前向加速策略,以解决传统 MoE 实现的效率挑战。我们的评估使用配备了 28 个现有 LoRA 适配器的 LlaMA2-13B 和 LlaMA3-8B 基础模型通过 MeteoRA,证明了与传统 PEFT 方法相同的性能。此外,配备 MeteoRA 的 LLM 在处理复合任务方面取得了优越的性能,有效地在一趟推理中解决了十个顺序问题,从而证明了该框架增强的及时适配器切换能力。
探索损失函数的景观可以深入了解深度神经网络(DNN)的内在原理。最近的研究表明,除了平坦和尖锐的谷外,还存在另一种不对称的谷,但尚未彻底检查其原因或影响。我们的研究系统地探索了影响DNN谷对称性的因素,包括:(1)影响收敛点的数据集、网络架构、初始化和超参数;以及(2)用于一维可视化的噪声的大小和方向。我们的主要观察结果表明,噪声和收敛点之间*符号一致性的程度*是谷对称性的关键指标。ReLU激活函数和softmax函数方面的理论见解可以解释这种有趣的现象。我们的发现推动了模型融合场景中新的理解和应用:(1)插值独立模型的有效性与其符号一致性比率显着相关,以及(2)在联邦学习中施加符号对齐成为模型参数对齐的一种创新方法。
大型语言模型 (LLM) 的最新进展及其显著涌现的能力和推理能力,正在推动我们走向人工通用智能。然而,巨大的计算和内存需求限制了其广泛应用。量化作为一种关键的压缩技术,可以通过压缩和加速LLM有效地减轻这些需求,尽管存在潜在的精度风险。许多研究致力于最小化与量化相关的精度损失。然而,它们的量化配置各不相同,无法进行公平比较。在本文中,我们提出了LLMC,一个即插即用的压缩工具包,用于公平且系统地探索量化的影响。LLMC集成了数十种算法、模型和硬件,从整数到浮点数量化,从LLM到视觉语言 (VLM) 模型,从固定位数到混合精度,从量化到稀疏化,具有很高的扩展性。借助这个多功能工具包,我们的基准测试涵盖了三个关键方面:校准数据、算法(三种策略)和数据格式,为进一步研究提供了新的见解和详细分析,并为用户提供了实践指导。我们的工具包可在 https://github.com/ModelTC/llmc 获取。