LLM2D

arXiv 论文列表

作者: Anjiang Wei, Allen Nie, Thiago S. F. X. Teixeira, Rohan Yadav, Wonchan Lee, Ke Wang, Alex Aiken
arXiv:2410.15625v2 宣布类型: 替换交叉 摘要:现代科学研究越来越依赖高性能计算进行复杂建模和仿真。提高并行程序性能的关键挑战之一是以高效方式将任务分配给处理器并将数据分配给内存,这是一个由复杂低级系统代码(称为映射器)规定的流程。开发高性能映射器需要几天的手动调优,这为缺乏系统专业知识的学科科学家设下了显著的障碍。我们提出了一种框架,该框架通过生成优化自动开发映射器,并利用超出标量性能指标的更丰富的反馈。我们的方法包括Agent-System Interface,其中包括一种领域特定语言(DSL),用于抽象掉系统代码中的低级复杂性并定义结构化的搜索空间,以及AutoGuide,这是一种机制,可将原始执行输出解释为可采取的动作反馈。与仅依赖标量反馈的传统强化学习方法(如OpenTuner)不同,我们的方法在更少的迭代中就能找到更优的映射器。在仅10次迭代后,即使经过1000次迭代,它也比OpenTuner表现出色,实现了3.8倍的速度提升。我们的方法在九个基准测试上找到的映射器比专家编写的映射器在速度上最多提升1.34倍,同时将调优时间从几天缩短到几分钟。
发布时间: 2/3/2025
查看原文
作者: Eric Elmoznino, Thomas Jiralerspong, Yoshua Bengio, Guillaume Lajoie
arXiv:2410.14817v3 宣告类型: replace-cross 摘要:组合性被认为是一智能所必需的基本要素。在人类中,它构成了思维结构、语言和高层次推理的基础。在人工智能中,组合性表示可以实现一种强大的分布外泛化形式,即模型系统地适应已知概念的新组合。然而,尽管我们对组合性有何含义有很强的直觉,但目前尚不存在一个可衡量的数学形式上的定义。在这里,我们提出这样的定义,称为表示组合性,这种定义考虑并扩展了我们对组合性的直觉。该定义概念上简单直观,定量化,并基于算法信息论,适用于任何表示。直观上,表示组合性陈述了一种组合性表示必须满足三个性质。首先,它必须是表达性的。其次,它可以重新描述为由可重组部分的离散符号序列函数的形式,类似于自然语言中的句子。第三,将这些符号序列与表示关联的函数,类似于自然语言中的语义,必须是简单的。通过合成数据和真实世界数据的实验,我们验证了组合性的定义,并展示了它如何统一来自人工智能和认知科学文献中不相关的直觉。我们还展示了表示组合性虽然理论上难以处理,但可以使用标准的深度学习工具轻松估计。该定义有可能启发设计出新的、基于理论的模型,更好地捕捉组合性思维的机制。
发布时间: 2/3/2025
查看原文
作者: Eric Elmoznino, Tom Marty, Tejas Kasetty, Leo Gagnon, Sarthak Mittal, Mahan Fathi, Dhanya Sridhar, Guillaume Lajoie
arXiv:2410.14086v3 宣告类型: replace-cross 摘要:机器学习的核心目标是泛化。虽然无免费午餐定理指出,在没有进一步假设的情况下无法获得泛化的理论保证,但在实践中,我们观察到能够解释训练数据的简单模型泛化效果最佳:一个被称为奥卡姆剃刀的原则。尽管需要简单模型,但在机器学习中,大多数当前方法仅最小化训练误差,并通过正则化或架构设计间接促进简单性。在这里,我们建立了奥卡姆剃刀与上下文学习之间的联系:某些序列模型(如变换器)在推理时从序列中过去的观察中学习的一种新兴能力。特别是,我们证明了用于训练上下文学习者的下一个标记预测损失直接等同于一种称为预quential编码的数据压缩技术,而最小化这种损失相当于同时最小化训练误差和从上下文中隐式学习的模型的复杂性。我们提供的理论和实验证据不仅为上下文学习提供了一种规范性的解释,还阐明了当前上下文学习方法的不足之处,指出了改进的方向。我们将在 https://github.com/3rdCore/PrequentialCode 上提供我们的代码。
发布时间: 2/3/2025
查看原文
作者: Hanbo Huang, Yihan Li, Bowen Jiang, Lin Liu, Bo Jiang, Ruoyu Sun, Zhuotao Liu, Shiyu Liang
arXiv:2410.11182v2 宣布类型: 替换-交叉 摘要: 当前的LLM自定义通常依赖于两种部署策略:闭源API,这需要用户将私有数据上传到外部服务器,以及开源模型,这允许本地微调但存在滥用风险。在本文中,我们argue了以下观点:(1) 将闭源LLM部署在用户可控的基础架构中(即本地部署)可以增强数据隐私并减轻滥用风险;(2) 一个设计良好的本地部署必须确保模型的保密性——防止模型被盗——并提供保护隐私的自定义功能。此前对小型模型的研究仅在硬件保护的设备中保护输出层,以平衡保密性和微调效率。然而,我们证明了这种方法对于防御大规模LLM免受榨取性攻击是不够的。因此,我们提出了一种半开放部署框架,仅保护少数精心选择的层,同时具备与完全保护模型相媲美的榨取性攻击抵抗力,并保持调整灵活性。通过广泛的实验,我们展示了保护底层层可以显著降低功能抽取风险。我们的发现表明,隐私和保密性可以共存,为兼具可用性和保护的本地AI部署铺平了道路。
发布时间: 2/3/2025
查看原文
作者: Wenlong Wang, Ivana Dusparic, Yucheng Shi, Ke Zhang, Vinny Cahill
arXiv:2410.08893v2 更新类型: replace-cross 摘要:基于模型的强化学习(RL)为大多数无模型RL算法所困扰的数据效率低下提供了解决方案。然而,学习一个稳健的世界模型通常需要复杂且深度的架构,这些架构的计算和训练成本高昂。在世界模型内部,动力学模型对于准确预测尤为重要,已经探索了各种动力学模型架构,每种架构都有其自身的挑战。目前,基于递归神经网络(RNN)的世界模型面临诸如梯度消失和难以有效捕捉长期依赖性的问题。相比之下,使用变压器的方法则受到众所周知的自我注意力机制问题的影响,其中内存和计算复杂性按 \(O(n^2)\) 逐级扩展,\(n\) 表示序列长度。 为了解决这些挑战,我们提出了一个基于状态空间模型(SSM)的世界模型,特别基于Mamba,该模型实现了 \(O(n)\) 的内存和计算复杂性,同时能够有效地捕捉长期依赖性,并高效地使用较长的训练序列。我们还引入了一种新的采样方法,以缓解在训练早期由于世界模型不准确而导致的次优性问题,并结合上述技术,仅使用一个具有700万可训练参数的世界模型,实现了与其他基于模型的RL算法相当的标准化得分。该模型易于访问,并可以在现成的笔记本电脑上进行训练。代码可在 https://github.com/realwenlongwang/Drama.git 获取。
发布时间: 2/3/2025
查看原文
作者: \"Ozg\"un Turgut, Philip M\"uller, Martin J. Menten, Daniel Rueckert
arXiv:2410.07299v2 宣告类型: replace-cross 摘要:自然语言处理和计算机视觉领域近期取得了突破性进展,得益于在大规模数据集上进行高效预训练,使基础模型在广泛的任务上表现出色。然而,这一潜力在时间序列分析领域尚未完全实现,因为现有方法无法解决大规模时间序列语料库中的异质性问题。在医学、金融等领域广泛存在的情况下,时间序列在变量数量、变量间关系、时间模式以及采样频率等方面差异显著。为解决这一问题,我们提出了一种新的预训练范式,专门设计用于处理时间序列异质性。我们提出了一个具备可学习领域特征的分词器、一种双掩码策略以及规范化交叉相关损失函数,从而使我们开放的时间序列分析模型(OTiS)能够有效学习大规模时间序列语料库。在多元任务上的广泛基准测试,包括分类、回归和预测,表明OTiS优于当前最先进的基准模型。我们的代码和预训练权重可在https://github.com/oetu/otis获取。
发布时间: 2/3/2025
查看原文
作者: Michael Lan, Philip Torr, Austin Meek, Ashkan Khakzar, David Krueger, Fazl Barez
arXiv:2410.06981v2 宣告类型: replace-cross 摘要:我们研究了大语言模型(LLMs)中的特征通用性,这是一个旨在理解不同模型如何在中间层的潜在空间中以类似方式表述概念的研究领域。证明特征通用性可以使潜在表示的研究成果在多个模型之间泛化。然而,由于多义性(即单一神经元通常对应多个特征而不是独立特征),跨LLM比较特征极具挑战性,使得难以分解和匹配不同模型中的特征。为了解决这一问题,我们使用稀疏自编码器(SAEs)通过将LLM激活转换到由对应于单一特征的神经元生成的更具可解释性的空间来采用字典学习方法。在通过激活相关性匹配不同模型的特征神经元后,我们使用不同LLM的SAE特征空间上的表示空间相似度度量。我们的实验揭示了各种LLM的SAE特征空间之间的显著相似性,提供了特征通用性的新证据。
发布时间: 2/3/2025
查看原文
作者: Wei Yao, Zeliang Zhang, Huayi Tang, Yong Liu
arXiv:2410.06851v2 宣告类型: 替换-交叉 摘要:模型集成对抗攻击已成为生成可用于针对甚至未知模型的可传递对抗样本的强大方法,但其理论基础尚未得到充分探索。为了解决这一差距,我们提供了早期的理论见解,作为推进模型集成对抗攻击的蓝图。我们首先定义可传递性误差来衡量对抗样本可传递性的误差,并引入多样性和经验模型集成拉德马赫复杂度的概念。然后,我们将可传递性误差分解为脆弱性、多样性和一个常数,严格解释了模型集成攻击中可传递性误差的来源:对抗样本对集成组件的脆弱性,以及集成组件的多样性。此外,我们应用信息理论中的最新数学工具,结合复杂度和泛化术语来限制可传递性误差,为降低可传递性误差提供了三个实用指南:(1) 包含更多的替代模型,(2) 增加它们的多样性,以及 (3) 当出现过拟合时减少它们的复杂性。最后,使用54个模型进行的大量实验验证了我们的理论框架,标志着对可传递模型集成对抗攻击理解的重要进步。
发布时间: 2/3/2025
查看原文
作者: Yuhao Mao, Yani Zhang, Martin Vechev
arXiv:2410.06816v2 通告类型: 交叉替换 摘要: 为了提供鲁棒性保证,神经网络验证方法严重依赖于凸松弛。然而,这些凸松弛的不精确性是一个主要障碍:即使是单神经元的最精确凸松弛也不适用于一般ReLU网络的现象被称为单神经元凸障碍。虽然在实践中已经提出了启发式的方法来绕过这个障碍,但它们的理论性质仍然知之甚少。在此项工作中,我们进行了关于多神经元凸松弛表达能力的首次严谨研究。我们首先证明了在d维空间中,“max”函数可以通过ReLU网络进行编码,并且可以通过多神经元凸松弛进行精确边界化,这是任何单神经元凸松弛都无法实现的。进一步地,我们证明了通过语义保结构转换或通过具有增强的最坏情况分割复杂性的输入空间分割,可以将多神经元凸松弛转化为完备验证器。我们还表明,在没有这些增强的情况下,完备性保证将无法获得,并且每个多神经元凸松弛的松弛误差可以是无界的。据我们所知,这是首个对多神经元凸松弛及其在神经网络验证中的表达能力进行全面描述的工作。
发布时间: 2/3/2025
查看原文
作者: Giovanni Monea, Antoine Bosselut, Kiant\'e Brantley, Yoav Artzi
arXiv:2410.05362v2 宣传类型: 替换-交叉 摘要: 大型语言模型(LLMs)在上下文学习(ICL)方面表现出色,这是一种依赖于将标注示例添加到模型上下文中的监督学习技术。我们研究了一种上下文多臂 bandit 版本的上下文强化学习(ICRL),在这种方法中,模型通过外部奖励在线地进行上下文学习,而不是通过监督数据进行学习。我们展示了LLMs在这种学习中有效表现出这种学习的能力,并对具有挑战性的分类任务和从5亿到700亿参数的不同规模的模型进行了详细的实证研究。这包括识别和解决该过程的不稳定性问题,展示了使用语义和抽象标签的学习能力,并展示了规模趋势。我们的发现突显了LLMs中的ICRL能力,同时也强调了它们在隐含推理错误方面的基本限制。
发布时间: 2/3/2025
查看原文