密集卷积网络因其轻量级和高效的结构,不断被优化以采用高效且紧凑的架构。然而,目前的密集型架构主要依靠人工设计,根据经验调整通道和重用级别变得越来越困难。为此,我们提出了一种名为 Dense Optimizer 的架构搜索方法,可以自动搜索高性能的密集型网络。在 Dense Optimizer 中,我们将密集网络视为一个分层信息系统,最大化网络的信息熵,同时通过幂律约束每个阶段熵的分布,从而构建一个优化问题。我们还提出了一种分支定界优化算法,将幂律原理与搜索空间缩放紧密结合,以高效地解决优化问题。Dense Optimizer 的优越性已在不同的计算机视觉基准数据集上得到验证。具体来说,Dense Optimizer 完成了高质量的搜索,但仅使用一台 CPU 耗时 4 小时。我们搜索的模型 DenseNet-OPT 在 CIFAR-100 上取得了 84.3% 的 top 1 准确率,比原始模型高出 5.97%。
尽管基于深度学习的**天气预报系统**取得了巨大进展,但其设计空间,包括不同设计选择的影响,尚未得到充分理解。本文旨在通过系统地分析这些选择来填补这一知识空白,这些选择包括**架构**、**问题表述**、**预训练方案**、**基于图像的预训练模型的使用**、**损失函数**、**噪声注入**、**多步输入**、**附加静态掩码**、**多步微调(包括更大步幅模型)**,以及**在更大数据集上训练**。我们研究了**固定网格架构**,例如 UNet、全卷积架构和基于 Transformer 的模型,以及**网格不变架构**,包括基于图的模型和基于算子的模型。我们的结果表明,**固定网格架构**优于**网格不变架构**,表明需要进一步开发**网格不变模型**(如神经算子)的架构。因此,我们提出了一种**混合系统**,将**固定网格模型**的强大性能与**网格不变架构**的灵活性相结合。我们进一步表明,**多步微调**对于大多数深度学习模型在实践中良好运行至关重要,这在过去一直是一种常见的做法。**预训练目标**与监督训练相比降低了性能,而**基于图像的预训练模型**在某些情况下与从头开始训练模型相比提供了有用的归纳偏差。有趣的是,我们发现,与在较小的数据集上训练更长时间相比,在训练较小的模型时使用更大的数据集具有很强的积极作用。另一方面,较大的模型主要受益于计算预算的增加。我们相信这些结果将有助于未来设计更好的**天气预报系统**。
针对特定任务的数据微调,以提升下游性能,是充分利用大型语言模型 (LLM) 的关键步骤。然而,以往的研究表明,在多个对抗样本甚至良性数据上对模型进行微调,会极大地损害模型预先配备的对齐和安全能力。在本研究中,我们提出了一种名为 SEAL 的新型框架来增强 LLM 微调的安全性能。SEAL 基于双层优化学习了一个数据排序器,以便对安全且高质量的微调数据进行上调排序,而对不安全或低质量的数据进行下调排序。使用 SEAL 训练的模型在多个基线模型上表现出优异的性能,在 Llama-3-8b-Instruct 和 Merlinite-7b 模型上,与随机选择相比,赢率分别提高了 8.5% 和 9.7%。我们的代码已在 github 上发布,地址为 https://github.com/hanshen95/SEAL。
先前研究已证明端到端深度学习在机器人导航中的有效性,其中控制信号直接来自原始感官数据。然而,大多数现有的端到端导航解决方案主要基于摄像头。本文介绍了 TinyLidarNet,这是一种基于 2D 激光的轻量级端到端深度学习模型,用于自动驾驶竞赛。使用 TinyLidarNet 的 F1TENTH 车辆在第 12 届 F1TENTH 自动驾驶大奖赛中获得了第三名,证明了其具有竞争力的性能。我们系统地分析了其在未经训练的赛道上的性能以及实时处理的计算需求。我们发现 TinyLidarNet 的基于一维卷积神经网络 (CNN) 的架构明显优于广泛使用的基于多层感知器 (MLP) 的架构。此外,我们表明它可以在低端微控制器单元 (MCU) 上实时处理。
将基于视觉的强化学习 (RL) 智能体泛化到新环境仍然是一个困难的开放性挑战。目前的趋势是收集大规模数据集或使用数据增强技术来防止过拟合并提高下游泛化能力。然而,随着任务变体的数量增加,计算和数据收集成本呈指数级增长,并且可能破坏训练 RL 智能体这一本来就困难的任务。在这项工作中,我们从计算神经科学的最新进展中汲取灵感,并提出了一种名为“关联潜在解耦 (ALDA)”的模型,该模型建立在标准的离策略 RL 之上,旨在实现零样本泛化。具体来说,我们重新审视了潜在解耦在 RL 中的作用,并展示了将它与关联记忆模型相结合如何在不依赖数据增强的条件下,在困难的任务变体上实现零样本泛化。最后,我们正式证明数据增强技术是一种弱解耦形式,并讨论了这一洞察力的意义。
我们在布尔可满足性问题(SAT)的背景下,从理论和实证两方面研究了大型语言模型(LLMs)的逻辑推理能力。首先,我们构建了一个仅解码器 Transformer,它可以使用回溯和基于思维链(CoT)的推理来解决 SAT。我们通过证明其跟踪等价于著名的 DPLL SAT 求解算法来证明其正确性。其次,为了支持这种抽象构造的实现,我们设计了一个编译器 $\texttt{PARAT}$,它以过程规范作为输入,并输出一个实现此规范的 Transformer 模型。第三,我们不是 $\textit{编程}$ Transformer 进行推理,而是通过从 DPLL 算法的算法跟踪(“推理路径”)中直接学习来评估它是否可以被 $\textit{训练}$ 来执行此操作。
在新兴的高性能片上网络 (NoC) 架构中,高效的电源管理对于最大程度地减少能耗至关重要。我们提出了一种名为 CAFEEN 的新型框架,它采用基于启发式的细粒度和基于机器学习的粗粒度电源门控来实现节能的 NoC。CAFEEN 使用细粒度方法仅在较低的网络负载期间激活必要的 NoC 缓冲区。在峰值负载时,它切换到粗粒度方法,利用多智能体强化学习来最小化复合唤醒开销。结果表明,CAFEEN 自适应地平衡了能效和性能,与最先进的 NoC 电源门控框架相比,单应用程序工作负载的总能耗降低了 2.60 倍,多应用程序工作负载的总能耗降低了 4.37 倍。
基础模型能够根据提示指令以及文本、音频或图像输入生成文本输出。最近,这些模型被组合起来用于执行视频任务,例如视频摘要。这类视频基础模型通过将每个模态特定模型的输出对齐到同一个嵌入空间来进行预训练。然后,来自每个模型的嵌入被用于语言模型中,该语言模型在所需指令集上进行了微调。在预训练期间对齐每个模态在计算上代价高昂,并且会阻碍对不同基础模态模型的快速测试。在微调期间,评估是在域内视频中进行的,很难理解这些方法的泛化性和数据效率。为了缓解这些问题,我们提出了一种即插即用的视频语言模型。它直接将来自每个输入模态的文本用于语言模型,避免了预训练对齐的开销。我们利用少样本指令适应策略,而不是微调。我们比较了即插即用方法和基线调优方法的性能与计算成本。最后,我们探索了每种方法在域转移过程中的泛化性,并展示了训练数据有限时哪些数据是有用的。通过这种分析,我们提供了关于如何在实际计算和数据限制下利用多模态基础模型获得有效结果的实用见解。
对于表格数据集,由于缺失变量(也称为混杂因素),标签和协变量之间的关系变化($Y|X$ 偏移)很常见。由于无法泛化到完全未知的新领域,我们研究了即使在只有少量标记示例的情况下也易于适应目标领域的模型。我们专注于构建更具信息量的表格数据表示,以减轻 $Y|X$ 偏移,并建议通过序列化(写下)表格数据将其编码来利用 LLM 中的先验世界知识。我们发现 LLM 嵌入本身在鲁棒性方面提供了不一致的改进,但使用它们训练的模型即使使用 32 个标记观察结果也可以很好地适应/微调到目标领域。我们的发现基于一项全面且系统的研究,该研究包含 7650 个源目标对,并以 22 种算法训练的 261,000 个模型配置为基准。当消融可访问目标数据的大小和不同的适应策略时,我们的观察结果仍然成立。代码可在 https://github.com/namkoong-lab/LLM-Tabular-Shifts 获取。
Transformer 模型的性能通过增加参数数量和处理文本的长度得到了提升。因此,对整个模型进行微调变成了一个内存密集型过程。参数高效微调 (PEFT) 的高性能方法通常与注意力块一起使用,而忽略了 MLP 块,MLP 块包含大约一半的模型参数。我们提出了一种新的选择性 PEFT 方法,即 SparseGrad,它在 MLP 块上表现良好。我们将层梯度转移到一个空间,在这个空间中只有大约 1% 的层元素仍然显著。通过将梯度转换为稀疏结构,我们减少了更新参数的数量。我们将 SparseGrad 应用于对 BERT 和 RoBERTa 进行 NLU 任务的微调,以及对 LLaMa-2 进行问答任务的微调。在这些实验中,在相同的内存需求下,我们的方法优于 LoRA 和 MeProp,这些方法是流行的最新 PEFT 方法。