arXiv:2501.12956v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)由于其巨大的资源需求而面临显著的部署挑战。虽然低比特量化权重可以减少内存使用并提高推理效率,但当前硬件缺乏对混合精度通用矩阵乘法(mpGEMM)的原生支持,导致基于去量化实现的低效性。此外,均匀量化方法往往无法充分捕捉权重分布,导致性能下降。我们提出了一种名为 GANQ(GPU-适应性非均匀量化)的层级后训练非均匀量化框架,该框架针对硬件高效的查找表基 mpGEMM 进行优化。GANQ 通过利用一个无训练、GPU-适应性的优化算法来高效地减少层级量化误差,从而实现优越的量化性能。广泛实验表明,GANQ 能够在 3 位和 4 位量化与最先进的方法相比,减少与 FP16 基线相比的困惑度差距。此外,当部署在单个 NVIDIA RTX 4090 GPU 上时,GANQ 的量化模型在基准模型上实现了高达 2.57 倍的速度提升,从而在 LLM 部署中提高了内存和推理效率。
arXiv:2501.11587v2 宣告类型: replace-cross
摘要:参数生成长期以来一直难以与当今的大规模视觉和语言模型的规模相匹配,限制了其更广泛的实用性。在本文中,我们介绍了大规模参数生成的循环扩散方法(RPG),一种新颖的框架,该框架能够在单个GPU上生成多达数百万的完整神经网络参数。我们的方法首先将网络参数划分为不重叠的token,每个token对应模型中的一个特定部分。然后,一种循环机制学习这些token之间的关系,生成作为扩散过程条件的原型,最终合成完整的参数。在ResNets、ConvNeXts和ViTs在ImageNet 1K和COCO以及LORAbased的LLMs上的各种架构和任务中,RPG在性能上与完全训练的网络相当,同时避免了过高的内存开销。值得注意的是,它超越了其训练集,能够生成以前未见过任务的有效参数,突显了其在动态和开放场景中的灵活性。通过克服长期存在的内存和可扩展性障碍,RPG代表了AI生成AI的重要进展,可能使在以前被认为不可行的规模上高效生成权重成为可能。
arXiv:2501.08962v2 宣布类型: replace-cross
摘要:AI算法在帮助医疗专业人员方面变得非常重要。这些模型获得的不断增加的信心有助于关键决策需求。在临床皮肤科中,分类模型可以仅使用RGB图像作为输入来检测患者皮肤上的恶性病变。然而,大多数基于学习的方法在训练时使用的是经过金标准验证的皮肤镜数据集,这些数据集庞大且经过验证。临床模型旨在处理使用用户智能手机摄像头进行的分类,而这些摄像头并不提供皮肤镜提供的相应分辨率。此外,临床应用带来了新的挑战。它可能包含来自不受控环境的截图、皮肤色调变化、视角变化、数据和标签中的噪声以及不均衡的类别。一种可能的替代方法是使用迁移学习来处理临床图像。然而,由于样本数量较少,这可能会导致模型性能下降;用于训练的源分布与测试集不同。本文旨在评估皮肤镜和临床样本之间的差距,并理解数据集变化如何影响训练。它评估了那些干扰模型预测的主要分布差异。最后,通过对不同架构的实验,我们讨论了如何结合来自不同分布的数据,以减少对模型最终准确率的影响。
arXiv:2501.08617v2 通知类型: replace-cross
摘要:尽管强化学习从人类反馈(RLHF)在对齐生成型AI方面展现出了潜力,但我们提供了实验证据表明,它也可能导致严重的系统性对齐偏差。我们认为这源于评估者的反馈依赖于受AI输出影响的下游结果预测(前瞻),从而引发Goodhart定律动态。相反,我们的理论分析表明,将评估者的反馈基于下游观察(后知)来调整,可以抑制这种效果,通过解耦对齐信号与可能被破坏的预测,至关重要的是,即使观察到的结果是从AI自身的世界模型中抽样产生的,该结果依然成立。基于这一洞察,我们引入了后知模拟强化学习(RLHS),在呈现可能的模拟结果给评估者之前,收集反馈。我们展示了RLHS在在线(PPO)和离线(DPO)大型语言模型微调中的应用,在受控的咨询类型实验和用户研究中,RLHS优于RLHF,实现了更好的对齐。我们在TruthfulQA基准上进行事后评估发现,即使在单一任务微调后,RLHF的对齐偏差和RLHS的对齐也延续到了截然不同的环境中。
arXiv:2501.07890v2 宣告类型: 替换交叉
摘要:传统的MoE(Mixture-of-Experts)网络通过利用多个较小的专家模型而非单一的大规模网络而受益。然而,这些专家通常独立运作,关于是否可以通过连接这些模型来增强MoE网络的性能这个问题尚未得到解答。为了解决这一问题,我们提出了GRAPHMOE,这是一种通过在Pseudo GraphMoE网络上构建自重思机制来增强语言模型认知深度的新型方法。GRAPHMOE采用递归路由策略模拟迭代思维步骤,从而促进专家节点之间信息的流动。我们使用Low-Rank Adaptation(LoRA)技术实现了GRAPHMOE架构,并在各种基准数据集上进行了广泛的实验。实验结果表明,GRAPHMOE优于其他基于LoRA的模型,达到了最先进的性能(SOTA)。此外,这项研究探索了一种新颖的递归路由策略,可能会启发进一步改进语言模型推理能力的发展。
arXiv:2501.00560v2 通知类型: 替换-交叉
摘要:评估和排名不同大型语言模型(LLM)的能力对于理解其性能和与人类偏好的一致性至关重要。由于人工评估代价高昂且耗时,因此自动LLM测评框架(即旨在基于人类偏好对LLM进行排名的自动评估框架)是必不可少的。一个自动LLM测评框架由四个组成部分组成:输入集(例如,用户指令)、评估模型(例如,LLM)、评估类型(例如,成对比较)和聚合方法(例如,ELO评分系统)。然而,之前的工作并没有充分探索如何选择这些组成部分,或者它们的不同组合如何影响结果。在本工作中,通过控制实验,我们提供了一系列关于如何选择每个组成部分以更好地自动化LLM评估的建议。此外,我们发现,在评估具有相似性能的LLM时,自动LLM测评框架的表现急剧下降,这突显了当前测评框架的局限性,并呼吁未来的研究方向。最后,我们发现,评估模型在实例级的表现(例如,选择最佳输出的准确性)并不总是与其作为测评框架组成部分时的有效性相一致,强调了专门针对测评框架进行系统级评估的重要性。
arXiv:2501.00135v3 宣布类型: replace-cross
摘要:量子计算是一种激动人心的非冯·诺依曼范式,对于特定问题提供了可证明的经典计算加速。然而,当前噪声量子设备下量子电路的经典模拟实用极限仍然不清楚。在这项工作中,我们探讨了利用大型语言模型(LLMs)模拟格罗夫量子图灵机输出的潜力,这是已知可为经典对应物提供二次加速的量子线路。为此,我们开发了GroverGPT,这是一种基于LLaMA的80亿参数架构的专业模型,训练集包含超过15万亿个标记。与需求大量计算资源的全面状态向量模拟不同,GroverGPT通过模式识别来近似量子搜索算法,而无需显式表示量子态。通过对97,000个量子搜索实例的分析,GroverGPT在OpenAI的GPT-4o(45%的准确性)上表现优越,当训练数据集为4个量子比特或更大时,在6个和10个量子比特数据集上达到了近100%的准确性。此外,GroverGPT还展示了强大的泛化能力,在训练数据集为3到6个量子比特的情况下,对超过20个量子比特的系统实现超过95%的准确性。分析表明,GroverGPT捕获了格罗夫搜索的量子特征,而不是经典模式,这得到了新的提示策略以提高性能的支持。尽管随着系统规模的增加准确性下降,这些发现为经典模拟的实用界限提供了见解。这项工作表明,针对特定任务的LLMs可以超越通用模型如GPT-4o在量子算法学习方面的表现,并且可以作为推动量子研究的强大工具。
arXiv:2412.17323v3 公告类型: replace-cross
摘要: 近年来,基于变压器的模型在时间序列预测中的应用受到了显著的关注。尽管这些模型常常显示出令人鼓舞的结果,但其注意力机制在完全利用时间序列数据中的时间关系时仍面临挑战。在这项工作中,我们设计了指数片段 (xPatch, 简称) 的一种新颖的双流架构,利用了指数分解。受到传统指数平滑方法的启发,xPatch 引入了创新的季节性-趋势指数分解模块。此外,我们提出了一种双流架构,包括一个基于MLP的线性流和一个基于CNN的非线性流。该模型研究了在非变压器模型中应用片段化和通道独立技术的好处。最后,我们开发了一种稳健的反切损失函数和一种sigmoid学习率调整方案,这些方法可以防止过拟合并提升预测性能。代码可在以下仓库获取:https://github.com/stitsyuk/xPatch。
arXiv:2412.16247v2 宣告类型: replace-cross
摘要:字典学习(DL)已成为大型语言模型解释性的强大工具。通过从人类可解释的数据(例如文本)中提取已知概念(例如金门大桥),稀疏DL可以阐明模型的内部工作机制。在本文中,我们询问DL是否也可以用于从较少人类可解释的科学数据(例如细胞图像)中发现未知概念,从而最终使现代科学发现方法得到增强。作为第一步,我们使用DL算法研究了训练在多细胞图像数据上的显微镜基础模型,在这些模型中,很少有关于哪些高层概念应该出现的先验知识。我们展示了确实可以提取出生物学上有意义的概念,如细胞类型和基因扰动类型。我们还提出了迭代代码本特征学习(ICFL),并将其与预处理步骤结合,该步骤使用来自对照数据集的PCA白化技术。在我们的实验中,我们证明了与TopK稀疏自编码器相比,ICFL和PCA在提取出的选择性特征方面有所改进。
arXiv:2412.10450v2 Announce Type: replace-cross
摘要:准确及时的区域天气预测对于依赖于天气相关决策的行业至关重要。传统预测方法基于大气方程,通常受到时间分辨率粗糙和不准确性的困扰。本文介绍了一种新的机器学习(ML)模型,称为MiMa(Micro-Macro),该模型结合了肯塔基州气象网站的近表面观测数据(每五分钟收集,称为Micro数据)和每小时的大气数值输出(称为Macro数据),用于高分辨率天气预报。MiMa模型采用编码-解码变换架构,包括两个编码器分别处理两个数据集中的多元数据,以及一个解码器用于短时窗内天气变量的预测。每个MiMa模型实例,称为modelet,预测单个气象网点处特定天气参数的值。该方法通过在区域中少数代表站点的多元数据上进行训练,并标记其海拔,拓展至Re-MiMa modelets。Re-MiMa(Regional-MiMa)可以为整个区域提供高精度预测,即使在没有观测站点的地区也是如此。实验结果显示,MiMa显著优于现有模型,而Re-MiMa为未观测地区提供精确的短期预报,标志着天气预报准确性和应用方面取得了重大进展。