arXiv:2409.12517v2 宣告类型: replace-cross
摘要: 我们首次使用FP8精度训练大型语言模型,数据集包含多达2兆词——这比之前的工作中设定的上限提高了20倍。通过这些延长的训练运行,我们在FP8训练中发现了早期较短持续时间工作中不可见的关键不稳定性。我们将这些不稳定性追溯到SwiGLU激活函数的异常值放大。有趣的是,我们通过分析和实验证明,这种放大只发生在长期训练期间,并将其与SwiGLU权重对齐过程联系起来。为了解决这个新发现的问题,我们引入了Smooth-SwiGLU,这是一种创新修改,确保了在不改变函数行为的情况下实现稳定的FP8训练。我们还首次展示了Adam优化器动量的FP8量化。结合这些创新,我们成功使用FP8精度在256个Intel Gaudi2加速器上训练了一个7B参数模型,实现了与BF16基线相当的结果,同时提供了高达约34%的吞吐量改进。提供的参考实现可在https://github.com/Anonymous1252022/Megatron-DeepSpeed找到。
arXiv:2409.11887v2 Announce Type: replace-cross
摘要:近年来,具有丰富视觉信息的文档理解受到了越来越多的关注。基于变换器的预训练模型已成为该领域的主流方法,显著提升了性能。然而,自注意力机制的二次计算复杂性阻碍了其效率,并限制了其处理长文档的能力。本文我们提出了一种新的基于状态空间模型的框架DocMamba,旨在通过保持全局建模能力的同时将计算复杂度降低为线性。为了进一步增强其在文档处理中的有效性,我们引入了Segment-First Bidirectional Scan(SFBS)以捕捉连续的语义信息。实验结果表明,DocMamba在FUNSD、CORD和SORIE等下游数据集上取得了新的最佳结果,同时显著提高了速度并减少了内存使用。值得注意的是,HRDoc上的实验验证了DocMamba在长度外推方面的潜力。
arXiv:2409.11145v2 宣吿類型: replace-cross
摘要:传统的语音增强方法往往通过专注于单一类型的失真来简化恢复任务。处理多种失真的生成模型通常难以进行语音重建和高频谐波,导致呼吸和喘息的伪影,从而降低了重建语音的可理解性。这些模型还具有计算需求高,许多解决方案仅限于输出宽带频率范围,这限制了它们在专业应用中的适用性。为了解决这些挑战,我们提出了Hi-ResLDM,这是一种基于潜在扩散的新颖生成模型,旨在去除多种失真并恢复语音记录至录音室质量,采样率为48kHz。我们将Hi-ResLDM与采用GAN和条件流匹配(CFM)组件的最新方法进行基准测试,展示了其在再生高频带细节方面的优越性能。Hi-ResLDM不仅在非侵入性指标方面表现卓越,而且在人类评估中也始终更受欢迎,并且在侵入性评估中表现出色,使其成为高分辨率语音恢复的理想选择。
arXiv:2409.09822v3 宣告类型: replace-cross
摘要:因果推理在医学和经济学等众多领域中一直是至关重要的挑战,需要综合人类知识、数学推理和数据挖掘能力的复杂结合。最近在自然语言处理(NLP)方面的进展,特别是随着大型语言模型(LLMs)的出现,为传统因果推理任务带来了令人振奋的机会。本文回顾了将LLMs应用于因果推理的最新进展,涵盖了不同层次因果关系的各种任务。我们总结了主要的因果问题和方法,并在不同的因果场景中展示了它们的评估结果。此外,我们讨论了关键发现,并指出了未来研究的方向,强调了在推进因果推理方法方面整合LLMs的潜在意义。
arXiv:2409.09760v2 宣告类型: 替换交叉
摘要:耳聋和听力正常的歌曲手语表演者在视频分享平台上变得越来越普遍,但将歌曲翻译成手语仍然很繁琐且不易访问。我们的初步研究揭示了歌曲手语表演者面临的挑战,包括翻译中的语义、句法、表达性和节奏方面的考虑。我们提出了ELMI,这是一种可访问的歌曲手语工具,可以帮助将歌词翻译成手语。ELMI 允许用户逐行编辑手语拼写,实现实时同步的歌词和音乐视频片段。用户还可以与大型语言模型驱动的AI聊天,讨论意义、拼写、表情表现以及时间控制。通过一项涉及13名歌曲手语表演者的探索性研究,我们探讨了ELMI如何促进他们的工作流程,以及歌曲手语表演者如何利用和接受由LLM驱动的聊天进行翻译。参与者成功地将ELMI应用于歌曲手语表演,整个过程中都有积极的讨论。他们还报告说在翻译中感到更有信心和独立,认为ELMI很有鼓励作用、建设性且具有信息性。我们讨论了可访问且文化敏感的歌曲手语翻译工具的研究和设计含义。
arXiv:2409.04410v3 宣告类型: 替换-交叉
摘要:Open-MAGVIT2项目产生了一个开源的Google MAGVIT-v2分词器的复制,该分词器具有超大的码本(即,$2^{18}$个码),并实现了ImageNet和UCF基准上的最先进的重构性能。我们还提供了一个在大规模数据上预训练的分词器,在零样本基准测试中显著超越了Cosmos(ImageNet原始分辨率上rFID分别为1.93 vs. 0.78)。此外,我们探索了其在朴素自回归模型中的应用以验证其可扩展性,从而产生了一个从300M到1.5B的各种自回归图像生成模型。为帮助自回归模型在超大词汇量下进行预测,我们通过不对称的令牌分解将词汇量分解为不同大小的两个子词汇量,并进一步引入“下一个子令牌预测”以增强子令牌之间的交互以获得更好的生成质量。我们释放了所有模型和代码,以促进自回归视觉生成领域的创新和创造力。
arXiv:2409.04318v2 宣告类型: 替换交叉
摘要:生成型大规模语言模型(LLMs)能够进行上下文学习。然而,上下文学习(ICL)的内在机制仍然是一个主要的研究问题,关于模型如何利用ICL的实验研究结果并不总是前后一致的。在这项工作中,我们提出了一种评估上下文学习机制的框架,我们认为这些机制是检索内部知识和聚焦回归任务学习上下文示例的结合。首先,我们展示了LLMs能够解决实际世界的回归问题,然后设计实验来衡量LLMs在检索其内部知识与从上下文示例中学习的哪个方面占主导地位。我们认为这一过程在这两个极端之间存在一个连续谱。我们深入分析了这些机制在各种因素(如任务的先验知识以及上下文示例提供的信息的类型和丰富性)作用下被触发的程度。我们使用三种LLMs并利用多个数据集来验证我们结果的稳健性。我们的结果揭示了如何根据所解决的问题来设计提示,从而利用上下文示例进行元学习并促进知识检索。
arXiv:2409.02483v4 宣告类型: replace-cross
摘要:骨架序列作为人类行为的井然有序的表示,在人类活动识别(HAR)中扮演着至关重要的角色。对抗性骨架序列的可迁移性使其在自动驾驶、智能监控和人机交互等现实世界HAR场景中得以应用。然而,当前大多数基于骨架的HAR(S-HAR)攻击主要针对白盒场景设计,显示出较弱的对抗迁移性。因此,它们不能被视为真正的S-HAR攻击。更为重要的是,这种缺陷的根本原因尚未明确。在本文中,我们通过损失面的角度研究了这一现象,并发现其尖锐性是导致S-HAR中弱迁移性的主要原因。受此观察的启发,我们假设并通过实验证实,平滑棘手的损失景观可能有助于提高S-HAR中的对抗迁移性。为此,我们提出了第一个基于转移的骨架动作识别攻击,TASAR。TASAR无需重新训练代理模型,通过新的后训练双重贝叶斯优化策略探索平滑的模型后验。此外,与之前那些独立处理每一帧并忽视序列内部时域一致性性的转移攻击不同,TASAR 将运动动力学纳入贝叶斯攻击梯度中,有效地破坏了S-HAR的时空一致性。为了全面评估现有方法和我们的方法的有效性,我们构建了第一个大规模鲁棒S-HAR基准,包含7个S-HAR模型、10种攻击方法、3个S-HAR数据集和2种防御方法。广泛的结果表明TASAR的优越性。我们的基准使得未来研究中的比较变得容易,代码附在补充材料中。
arXiv:2408.16429v2 宣告类型: replace-cross
摘要: 在监督学习中,特别是在关键应用中,权衡计算效率与稳健的预测性能至关重要。标准的深度学习模型虽然精度高且具有可扩展性,但在概率特征方面,如校准预测和不确定性量化,常常有所欠缺。贝叶斯方法可以解决这些问题,但在模型和数据复杂度增加时,计算成本通常会变得昂贵。之前的工作表明,快速的变分方法可以通过消除梯度计算或采样的需求来降低贝叶斯方法的计算需求,但这些方法通常局限于简单的模型。我们提出了CAVI-CMN,这是一种快速、无梯度的变分方法,用于训练条件混合网络(CMN),这是一种混合专家(MoE)模型的概率变体。CMN由线性专家和softmax门控网络组成。通过利用条件共轭和Polya-Gamma增广,为线性层和门控网络的权重提供了高斯似然估计。这使得可以使用坐标上升变分推断(CAVI)进行高效的变分更新,避免了传统的基于梯度的优化。我们通过在UCI存储库的标准分类基准上训练两层CMN来验证这种方法。CAVI-CMN在预测准确度上与反向传播下的最大似然估计(MLE)竞争,并且通常优于MLE,同时保持了可竞争的运行时间和所有模型参数的完整后验分布。此外,随着输入规模或专家数量的增加,计算时间与MLE和其他基于梯度的解决方案(如黑箱变分推断,BBVI)处于可竞争的水平,这使得CAVI-CMN成为深度、快速且无梯度的贝叶斯网络的有希望的工具。
arXiv:2408.15204v2 通告类型: 替换-交叉引用
摘要:大规模语言模型(LLMs)在各种任务上都与人类评估者高度一致,这表明其有助于缓解人类数据收集的挑战。在计算社会科学研究(CSS)中,研究人员越来越多地利用LLM注释来补充缓慢且昂贵的人类注释。然而,有关如何收集和使用LLM注释而不损害下游结论的有效性的指导仍然有限。我们介绍了基于信心推断(Confidence-Driven Inference):该方法结合了LLM注释和LLM信心指标,战略性地选择应收集的人类注释,旨在通过减少所需的人类注释数量,同时产生准确的统计估计和可证明有效的置信区间。我们的方法包括防止低质量LLM注释的安全措施,确保结论将既有效又至少与仅依赖人类注释时一样准确。我们在三个CSS设置——文本礼貌、立场和偏见——中证明了基于信心推断相对于基线在统计估计任务中的有效性,每个设置中减少了超过25%所需的人类注释数量。尽管我们使用CSS设置进行演示,但基于信心推断可以用于广泛NLP问题中大多数标准量的估计。