当前最先进的扩散模型采用包含卷积层和(qkv)自注意力层的 U-Net 架构。U-Net 在处理图像时,会根据每个采样步骤的时间嵌入输入和对应于所需条件生成的类或标题嵌入输入进行条件化。这种条件化涉及对卷积层的缩放和平移操作,但不会直接影响注意力层。虽然这些标准的架构选择无疑是有效的,但没有对注意力层进行条件化感觉很随意,并且可能不是最优的。在这项工作中,我们表明,只需在注意力层添加 LoRA 条件化,而无需更改或调整 U-Net 架构的其他部分,就可以提高图像生成质量。例如,在 EDM 扩散模型中直接添加 LoRA 条件化,对于无条件和类条件 CIFAR-10 生成,可以获得 1.91/1.75 的 FID 分数,优于 1.97/1.79 的基线。
受自然语言处理 (NLP) 领域中 Transformer 的巨大成功启发,视觉 Transformer (ViT) 已迅速发展并在各种计算机视觉任务中取得了显著的性能。然而,其庞大的模型尺寸和密集的计算阻碍了 ViT 在嵌入式设备上的部署,因此需要有效的模型压缩方法,例如量化。不幸的是,由于存在对硬件不友好且对量化敏感的非线性操作,特别是 {Softmax},完全量化 ViT 中的所有操作并非易事,会导致显著的精度下降或不可忽略的硬件成本。针对与 \textit{标准 ViT} 相关的挑战,我们专注于对 \textit{高效 ViT} 的量化和加速,它不仅消除了麻烦的 Softmax,而且将线性注意力与低计算复杂度相结合,并相应地提出了 Trio-ViT。具体来说,在算法层面,我们开发了一个 {量身定制的训练后量化引擎},充分考虑了无 Softmax 的高效 ViT 的独特激活分布,旨在提高量化精度。此外,在硬件层面,我们构建了一个专用于高效 ViT 的特定卷积-Transformer 混合架构的加速器,从而提高了硬件效率。大量的实验结果一致地证明了我们 Trio-ViT 框架的有效性。{特别是,与最先进的 ViT 加速器相比,在可比的精度下,我们能够获得高达 $\uparrow$$\mathbf{3.6}\times$, $\uparrow$$\mathbf{5.0}\times$, 和 $\uparrow$$\mathbf{7.3}\times$ 的 FPS,以及 $\uparrow$$\mathbf{6.0}\times$, $\uparrow$$\mathbf{1.5}\times$, 和 $\uparrow$$\mathbf{2.1}\times$ 的 DSP 效率。} 代码可在 \url{https://github.com/shihuihong214/Trio-ViT} 获取。
尽管大型语言模型 (LLM) 的最新进展显著提高了它们在各种任务上的性能,但它们在复杂的符号化多步推理方面,尤其是在数学推理方面,仍然面临挑战。为了增强 LLM 的数学推理能力,大多数现有工作集中于寻求领域专家或 GPT-4 的帮助以获得高质量的过程监督数据,这不仅昂贵,而且劳动密集。在我们的研究中,我们提出了一种创新的框架 AlphaMath,它通过利用蒙特卡罗树搜索 (MCTS) 来绕过对过程注释(来自人类或 GPT)的需求。该框架专注于释放经过良好预训练的 LLM 的潜力,使其能够自主地增强其数学推理能力。具体来说,我们将价值模型与 LLM 集成在一起,在 MCTS 中自动生成过程监督和步骤级评估信号。此外,我们提出了一种高效的推理策略,即步骤级束搜索,其中价值模型被设计为辅助策略模型(即 LLM)导航更有效的推理路径,而不是仅仅依赖于先验概率。在域内和域外数据集上的实验结果表明,即使没有 GPT-4 或人工标注的过程监督,我们的 AlphaMath 框架也取得了与以前最先进方法相当或更好的结果。
在现实世界中,图像分类器应该谨慎使用。在验证集上评估的性能可能无法反映现实世界中的性能。特别是,分类器可能对训练过程中经常遇到的条件表现良好,但对其他不常见的条件表现不佳。在本研究中,我们假设文本到图像生成模型的最新进展使其成为对图像分类器等计算机视觉模型进行基准测试的宝贵工具:它们可以根据文本提示生成图像,这些提示会导致分类器出现故障,从而允许用文本属性描述故障条件。然而,当需要生成大量合成图像时,它们的生成成本会成为一个问题,例如,当需要测试许多不同的属性组合时。我们提出了一种图像分类器基准测试方法,该方法是一个迭代过程,交替进行图像生成、分类器评估和属性选择。这种方法有效地探索了最终导致不良行为检测的属性。
腿足导航通常在开放世界、越野和具有挑战性的环境中进行研究。在这些场景中,估计外部干扰需要对多模态信息进行复杂的综合。这突出了现有工作的重大局限性,现有工作主要集中在避障上。在这项工作中,我们提出了 TOP-Nav,这是一种新颖的腿足导航框架,它将全面的路径规划器与地形感知、避障和闭环本体感觉相结合。TOP-Nav 强调了视觉和本体感觉在路径和运动规划中的协同作用。在路径规划器中,我们提出并集成了一个地形估计器,使机器人能够在具有更高可穿越性的地形上选择路点,同时有效地避开障碍物。在运动规划层面,我们不仅实现了运动控制器来跟踪导航指令,还构建了本体感觉顾问为路径规划器提供运动评估。基于闭环运动反馈,我们对基于视觉的地形和障碍物估计进行了在线修正。因此,TOP-Nav 实现了开放世界导航,机器人可以处理超出先验知识分布的地形或干扰,并克服了视觉条件带来的约束。在模拟和真实世界环境中进行的大量实验的基础上,TOP-Nav 在开放世界导航中表现出优于现有方法的性能。
基于人类意图的系统使机器人能够感知和解释用户行为,从而与人类互动并主动适应其行为。因此,意图预测对于在人类设计环境中与社交机器人进行自然互动至关重要。本文研究了利用大型语言模型 (LLMs) 推断人类在与物理机器人协作的物体分类任务中的意图。我们提出了一种新颖的多模态方法,该方法将用户非语言线索(如手势、身体姿势和面部表情)与环境状态和用户语言线索相结合,以在分层架构中预测用户意图。我们对五种 LLMs 的评估表明了推理关于语言和非语言用户线索的潜力,利用它们的上下文理解和现实世界知识来支持在与社交机器人协作完成任务时的意图预测。
现代机器学习 (ML) 在大规模数据集上的训练是一个非常耗时的工作负载。它依赖于优化算法随机梯度下降 (SGD),因为它有效、简单且具有泛化性能。用于基于 SGD 的现代 ML 训练工作负载的以处理器为中心的架构(例如,CPU、GPU)由于访问大型数据集的数据局部性差,而受到处理器和内存单元之间数据移动的瓶颈。因此,以处理器为中心的架构在执行 ML 训练工作负载时会遭受性能低下和能耗高的困扰。内存中处理 (PIM) 是一种很有前景的解决方案,可以通过将计算机制放置在内存内部或附近来缓解数据移动瓶颈。
我们的目标是了解流行的分布式 SGD 算法在真实 PIM 系统上的能力,以加速数据密集型 ML 训练工作负载。为此,我们 1) 在真实 UPMEM PIM 系统上实现了几种具有代表性的集中式并行 SGD 算法,2) 严格评估这些算法在性能、准确性和可扩展性方面对大型数据集的 ML 训练,3) 与传统的 CPU 和 GPU 基线进行比较,以及 4) 讨论对未来 PIM 硬件的影响,并强调需要转向算法-硬件协同设计。
我们的结果表明了三个主要发现:1) UPMEM PIM 系统可以成为许多内存绑定 ML 训练工作负载的最新 CPU 和 GPU 的可行替代方案,尤其是在 PIM 硬件原生支持操作和数据类型时,2) 重要的是要仔细选择最适合 PIM 的优化算法,以及 3) UPMEM PIM 系统在许多数据密集型 ML 训练工作负载中无法随着节点数量的增加而近似线性扩展。我们开源了我们所有的代码,以促进未来的研究。
我们提出了 Eagle (RWKV-5) 和 Finch (RWKV-6),它们是基于 RWKV (RWKV-4) 架构的序列模型改进版本。我们的架构设计改进包括多头矩阵值状态和动态递归机制,这些机制提高了表达能力,同时保留了 RNN 的推理效率特性。我们引入了一个新的包含 1.12 万亿个词元的跨语言语料库和一个基于贪婪匹配的快速分词器,以增强多语言能力。我们训练了四个 Eagle 模型,参数范围从 0.46 亿到 75 亿,以及两个 Finch 模型,参数分别为 16 亿和 31 亿,发现它们在各种基准测试中取得了具有竞争力的性能。我们以 Apache 2.0 许可证在 HuggingFace 上发布了所有模型。模型地址:https://huggingface.co/RWKV 训练代码地址:https://github.com/RWKV/RWKV-LM 推理代码地址:https://github.com/RWKV/ChatRWKV 并行训练代码地址:https://github.com/RWKV/RWKV-infctx-trainer
近年来,领域机器人研究强调了应对不同地形的能力的重要性。特别是,北方森林拥有许多阻碍移动的地形,在越野自主导航中应予以考虑。此外,作为地球上最大的陆地生物群落之一,北方森林是自主车辆预计将日益普及的地区。本文通过引入 BorealTC,一个公开可用的基于本体感知的地形分类(TC)数据集,来解决这个问题。该数据集使用 Husky A200 记录,包含 116 分钟的惯性测量单元 (IMU)、电机电流和轮速计数据,重点关注典型的北方森林地形,特别是雪、冰和粉质壤土。将我们的数据集与另一个最先进的数据集相结合,我们评估了卷积神经网络 (CNN) 和新颖的状态空间模型 (SSM) 基于的 Mamba 架构在 TC 任务上的表现。有趣的是,我们发现,虽然 CNN 在每个单独的数据集上都优于 Mamba,但 Mamba 在结合两个数据集进行训练时却获得了更高的准确率。此外,我们证明了 Mamba 的学习能力随着数据量的增加而超过 CNN。我们表明,两个 TC 数据集的组合产生了可以解释地形属性的潜在空间。我们还讨论了合并数据集对分类的影响。我们的源代码和数据集在网上公开发布:https://github.com/norlab-ulaval/BorealTC。
行为可以被描述为由神经活动驱动的动作的时间序列。为了学习神经网络中复杂的序列模式,过去活动的记忆需要在比单个神经元活动弛豫时间长得多的时间尺度上持续存在。虽然循环网络可以产生这种长瞬态,但训练这些网络是一个挑战。通过误差传播进行学习赋予了 FORCE、RTRL 或 BPTT 等模型显著的功能优势,但以生物学上的可信度为代价。虽然储层计算通过仅学习读出权重来规避这个问题,但它不能很好地扩展到问题的复杂性。我们提出,皮层网络的两个突出结构特征可以缓解这些问题:在学习开始时存在某种网络支架,以及存在树突隔室以增强神经元信息存储和计算。我们由此产生的高效序列学习模型 (ELiSe) 基于这些特征,仅使用局部、始终开启且无相位突触可塑性来获取和重放复杂的非马尔可夫时空模式。我们在鸟鸣学习的模拟中展示了 ELiSe 的能力,并展示了其在参数化方面的灵活性,以及其对外部干扰的鲁棒性。