arXiv 论文列表

一个大型循环动作模型：xLSTM 使机器人任务的快速推理成为可能

作者: Thomas Schmied, Thomas Adler, Vihang Patil, Maximilian Beck, Korbinian P\"oppel, Johannes Brandstetter, G\"unter Klambauer, Razvan Pascanu, Sepp Hochreiter

arXiv:2410.22391v2 Announce Type: replace-cross 摘要：近年来，强化学习（RL）领域出现了通过序列建模在大规模数据集上离线训练大型行动模型的趋势。现有的模型主要基于Transformer架构，从而产生了强力的智能体。然而，由于推理时间过慢，基于Transformer的方法在诸如机器人技术等实时应用中是不切实际的。最近，提出了现代的递归架构，如xLSTM和Mamba，这些架构在训练过程中展现出与Transformer架构类似的并行化优势，同时提供快速推理。在本工作中，我们研究了这些现代递归架构在大型行动模型中的适用性。因此，我们提出了一种以xLSTM为核心的大型递归行动模型（LRAM），具有线性时间推理复杂度和自然序列长度外推能力。对来自6个领域的432个任务的实验结果显示，LRAM在性能和速度方面表现优于Transformer。

发布时间: 2/21/2025

查看原文

预训练中关键批量大小如何 scaling？

作者: Hanlin Zhang, Depen Morwani, Nikhil Vyas, Jingfeng Wu, Difan Zou, Udaya Ghai, Dean Foster, Sham Kakade

arXiv:2410.21676v3 宣布类型: replace-cross 摘要：在给定资源下训练大规模模型需要仔细设计并行策略。特别是，关于时间和计算之间的权衡，临界批大小（CBS）的概念标志着进一步的数据并行会带来递减回报的门槛。为了将其实施，我们提出了一个CBS衡量标准，并在C4数据集上对从8500万到12亿参数的自回归语言模型进行了预训练。通过广泛的研究超参数，请教并仔细控制因素如批大小、动量、学习率及其调度策略，我们系统地研究了规模对CBS的影响。然后，我们根据模型和数据规模拟合了缩放定律，以分离它们的影响。总体而言，我们的结果表明，CBS 主要与数据规模而非模型规模成比例变化，我们通过对神经网络无穷宽度极限和无穷维最小二乘回归的分析，从理论上解释了这一发现。此外，我们强调了对于研究大规模预训练的重要性，不仅仅是固定训练持续时间的情况下，共同的超参数选择和策略同样重要。

发布时间: 2/21/2025

查看原文

3D-Adapter：几何一致的多视图扩散生成高质三维模型

作者: Hansheng Chen, Bokui Shen, Yulin Liu, Ruoxi Shi, Linqi Zhou, Connor Z. Lin, Jiayuan Gu, Hao Su, Gordon Wetzstein, Leonidas Guibas

arXiv:2410.18974v2 宣布类型: replace-cross 摘要：多视图图像扩散模型在开放域3D对象生成方面取得了显著进展。然而，大多数现有模型依赖于缺乏固有3D偏见的二维网络架构，导致几何一致性受损。为了解决这一挑战，我们引入了3D-Adapter，这是一个插件模块，旨在将3D几何意识注入到预训练图像扩散模型中。我们的方法的核心思想是3D反馈增强：在采样循环中的每个去噪步骤中，3D-Adapter将中间的多视图特征解码为一致的3D表示，然后通过特征添加将渲染的RGBD视图重新编码以增强预训练的基础模型。我们研究了3D-Adapter的两种变体：一种基于高斯插值的快速前馈版本，以及一种利用神经场和网格进行无训练版本的多功能版本。我们的大量实验表明，3D-Adapter不仅大幅提高了如Instant3D和Zero123++等文本到多视图模型的几何质量，还使得使用普通的文本到图像Stable Diffusion模型生成高质量3D内容成为可能。此外，我们通过在文本到3D、图像到3D、文本到纹理和文本到avatar任务中展示高质的结果，展示了3D-Adapter广泛的应用潜力。

发布时间: 2/21/2025

查看原文

STAR: 一种基于大型语言模型的无训练推荐简单方法

作者: Dong-Ho Lee, Adam Kraft, Long Jin, Nikhil Mehta, Taibai Xu, Lichan Hong, Ed H. Chi, Xinyang Yi

arXiv:2410.16458v2 通告类型: replace-cross 摘要: 近期大规模语言模型（LLMs）的进展为推荐系统任务提供了有希望的新方法。当前最先进的方法依赖于微调LLMs以获得最佳结果，但这过程代价高昂且引入了显著的工程复杂性。相反，不进行附加微调直接使用LLMs的方法，会导致推荐质量大幅下降，通常是因为无法捕捉协作信息。在本文中，我们提出了一种无需训练的推荐简单方法（STAR），这是一种框架，利用LLMs并能够应用于各种推荐任务，而无需微调，同时保持高质量的推荐性能。我们的方法包括一个检索阶段，该阶段利用来自LLMs的语义嵌入与协作用户信息相结合来检索候选项目。我们随后运用LLM进行成对排名以增强下一样品的预测。在Amazon Review数据集上的实验结果表明，即使仅使用我们的检索阶段，也能取得具有竞争力的下一样品预测性能。我们的完整方法在Beauty上的 Hits@10 性能提高了23.8%，在Toys & Games上的提高了37.5%，而在Sports & Outdoors上的提高了-1.8%，相对于最佳监督模型。该框架为传统的监督模型提供了一种有效的替代方案，突显了在推荐系统中使用LLMs的潜力，无需进行大量训练或定制架构。

发布时间: 2/21/2025

查看原文

大型语言模型在自主驾驶中的应用（LLM4AD）：概念、基准、实验和挑战

作者: Can Cui, Yunsheng Ma, Zichong Yang, Yupeng Zhou, Peiran Liu, Juanwu Lu, Lingxi Li, Yaobin Chen, Jitesh H. Panchal, Amr Abdelraouf, Rohit Gupta, Kyungtae Han, Ziran Wang

arXiv:2410.15281v3 宣告类型: replace-cross 摘要：随着大型语言模型（LLMs）的更广泛使用和其高度成功的开发，人们对将LLMs应用于自动驾驶技术的兴趣和需求不断增加。受到它们自然语言理解和推理能力的驱动，LLMs有可能增强自动驾驶系统中的各个方面，从感知和场景理解到语言交互和决策。在这篇论文中，我们首先介绍了为自动驾驶设计LLMs（LLM4AD）的新概念。然后，我们提出了一个全面的基准来评估LLM4AD在模拟环境中的指令遵循能力。此外，我们在实际车辆平台上进行了一系列实验，全面评估了我们的LLM4AD系统的表现和潜力。最后，我们展望了LLM4AD的主要挑战，包括延迟、部署、安全和隐私、安全性、信任和透明度以及个性化。我们的研究突显了LLMs在增强自动驾驶车辆技术各个方面的巨大潜力，从感知和场景理解到语言交互和决策。

发布时间: 2/21/2025

查看原文

DMOSpeech：直接度量优化的蒸馏扩散模型在零-shot语音合成中的应用

作者: Yingahao Aaron Li, Rithesh Kumar, Zeyu Jin

arXiv:2410.11097v2 类型: replace-cross 摘要：扩散模型在语音合成任务中表现出了显著的潜力，包括文本到语音（TTS）和语音克隆。然而，它们的去噪迭代过程计算量大，早期的知识蒸馏尝试显示出了持续的质量下降。此外，现有的TTS方法受到非可微分组件或迭代采样的限制，这阻碍了在感知度量中实现真正的端到端优化。我们提出了DMOSpeech，这是一种基于扩散模型的知识蒸馏TTS模型，它独特地实现了比其教师模型更快的推理和更优异的性能。通过使所有模型组件直接具备梯度路径，我们展示了在TTS中首次成功地实现了差分度量的端到端优化，其中包括了连接主义时间分类（CTC）损失和说话人验证（SV）损失。通过广泛的实验验证，结果表明，与传统的TTS方法相比，我们的模型在自然性、可懂性和说话人相似性方面取得了显著改进，同时将推理时间大幅减少。这项工作建立了一种新的框架，通过直接度量优化将语音合成与人类听觉偏好对齐。音频样本可在 https://dmospeech.github.io/ 获取。

发布时间: 2/21/2025

查看原文

循环ReLU MLPs 或许是所有你所需的实际可编程计算机

作者: Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou

arXiv:2410.09375v2 宣告类型: 替换-交叉摘要：先前的工作已经证明了注意力机制是图灵完备的。最近的研究进一步表明，一个带有循环的9层Transformer可以作为通用编程计算机工作。相比之下，带ReLU激活函数的多层感知机（ReLU-MLP），神经网络中最基本的组件之一，已知具有很强的表现力；特别是，给定指数数量的隐单元时，两层神经网络可以作为通用逼近器。然而，仍然不清楚是否可以通过实际数量的权重将ReLU-MLP转变为通用编程计算机。在这项工作中，我们提供了一个肯定的回答，即一个带有循环的23层ReLU-MLP能够执行基本的必需操作，并且比带有循环的Transformer更高效、更有效地作为编程计算机工作。这表明简单的模块具有比先前预期更强的表现力，并且尚未被充分探索。我们的工作为神经网络的机制提供了见解，并表明像Transformer这样的高级架构并不一定需要来进行复杂任务，如编程计算机的工作。

发布时间: 2/21/2025

查看原文

基于连续向量表示的在上下文学习

作者: Yufan Zhuang, Chandan Singh, Liyuan Liu, Jingbo Shang, Jianfeng Gao

arXiv:2410.05629v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在文本数据上展示了令人印象深刻的上下文内学习（ICL）能力。我们探讨了这些能力是否可以扩展到来自多种领域的连续向量，这些向量通过黑盒预训练编码器获得。通过使用轻量级投影器将输入数据与LLM的嵌入空间对齐，我们观察到LLMs能够有效地处理和学习这些投影向量，我们将其称为Vector-ICL。特别是，我们发现使用通用语言建模目标预训练投影器能够实现Vector-ICL，而任务特定的微调进一步提高了性能。在包括文本重构、数值函数回归、文本分类、摘要、分子图注释、时间序列分类、图分类和fMRI解码等各项任务和模态的实验中，Vector-ICL往往优于少样本ICL和特定领域模型或调整。我们还进行了分析和案例研究，表明LLMs有可能处理超越传统基于标记的范式的向量表示。

发布时间: 2/21/2025

查看原文

大型语言模型中上下文学习推断电路的重访

作者: Hakaze Cho, Mariko Kato, Yoshihiro Sakai, Naoya Inoue

arXiv:2410.04468v4 Announce Type: replace-cross 摘要：上下文内学习（In-context Learning, ICL）是语言模型（Language Models, LMs）中的一个新兴的少样本学习范式，其内部机制尚未得到充分探索。虽然已有工作描述了ICL的内部处理过程，但它们很难捕捉大型语言模型中的所有推理现象。因此，本文提出了一种全面的电路来建模推理动力学，并尝试解释观察到的ICL现象。具体而言，我们将ICL推理分为三个主要操作：（1）输入文本编码：LMs将每条输入文本（演示和查询中的）编码成隐藏状态中的线性表示，这些表示包含了足够信息来解决ICL任务。（2）语义合并：LMs将演示的编码表示与其相应的标签词元合并，生成标签和演示的联合表示。（3）特征检索和复制：LMs在任务子空间中搜索与查询表示相似的演示联合表示，并将搜索到的表示复制到查询中。然后，语言模型头部分程度地捕获这些复制的标签表示并将其解码为预测标签。通过仔细的测量，提出的设计成功地捕捉并统一了ICL过程中观察到的许多零散现象，使其成为ICL推理过程的全面而实用的解释。此外，通过禁用提出的方法的所有步骤，ICL性能严重受损，这表明提出的设计是一个主导机制。此外，我们确认并列出了与提出的设计并行解决ICL任务的一些旁路机制。

发布时间: 2/21/2025

查看原文

从视觉、语音和文本中学习语法 induction

作者: Yu Zhao, Hao Fei, Shengqiong Wu, Meishan Zhang, Min Zhang, Tat-seng Chua

arXiv:2410.03739v2 宣告类型: replace-cross 摘要：语法 induction 可以从丰富的异构信号中受益，例如文本、视觉和声学信号。在这个过程中，不同模态的特征本质上相互补充。基于这种直觉，本文引入了一个新颖的无监督视觉-音频-文本语法 induction 任务（名为 VAT-GI），从并行的图像、文本和语音输入中诱导组成语法树。鉴于语言语法本就在文本之外自然存在，我们认为在语法 induction 中文本不一定是最主要的模态。因此，我们进一步引入了 VAT-GI 的无文本设置，在此设置中，任务仅依赖于视觉和听觉输入。为了解决这一任务，我们提出了一种视觉-音频-文本递归自动编码器（VaTiora）框架，该框架利用丰富的模态特定和互补特征进行有效的语法解析。此外，我们构建了一个更具挑战性的基准数据集来评估 VAT-GI 系统的泛化能力。在两个基准数据集上的实验表明，我们提出的 VaTiora 系统更有效地整合了各种多模态信号，并且在 VAT-GI 中呈现了新的最佳性能。

发布时间: 2/21/2025

查看原文