LLM2D

arXiv 论文列表

作者: Tianlang Chen, Charilaos Kanatsoulis, Jure Leskovec
arXiv:2502.06784v1 类型: cross 摘要: 在电子商务、医疗保健和社交媒体等领域广泛存在的关系数据库上的预测任务至关重要。为了有效应对这些任务,关系深度学习(RDL)将关系数据编码为图,从而使图神经网络(GNNs)能够利用关系结构以提高预测效果。然而,现有的异构GNNs往往忽视了关系数据库内在的结构性质,导致建模效率低下。在此,我们引入了RelGNN,这是一种专门设计用于捕捉关系数据库独特特性的全新GNN框架。在我们的方法的核心是引入原子路线,这是一种形成高阶三部分结构的节点序列。基于这些原子路线,RelGNN 设计了新的复合消息传递机制,允许异构节点之间直接的单跳交互。这种方法避免了冗余聚集,并减少了信息纠缠,最终导致了更高效和准确的预测建模。RelGNN 在来自 RelBench(Fey 等人,2024)的 30 个多样化的真实世界任务中进行了评估,并且始终实现了最先进的准确率,最高提高了25%。
发布时间: 2/11/2025
查看原文
作者: Yue Zhu, Haiwen Diao, Shang Gao, Long Chen, Huchuan Lu
arXiv:2502.06779v1 类型: cross 摘要:对预训练的视觉模型进行特定任务的微调是计算机视觉中的一种常见做法。然而,随着模型变得越来越大,这一过程变得更加昂贵。最近,参数高效的微调(PEFT)方法因其通过在预训练主干内微调附加的小秩模块来提高训练效率并减少存储需求而受到关注。尽管它们具有优势,但在表示能力和与预训练中间特征的对齐方面面临挑战。为了应对这些问题,我们提出了一种名为 Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission (KARST) 的创新方法,以适用于多种识别任务。具体而言,其多核设计在水平方向扩展了 Kronecker 投影,并将适应矩阵分解为多个互补空间,减少参数依赖性并创建更紧凑的子空间。此外,它还整合了额外的可学习的缩放因子,以更好地与预训练特征分布对齐,从而允许更灵活和平衡的特征聚合。广泛的实验验证了我们的 KARST 能够在几乎无额外推理成本的情况下优于其他 PEFT 方法,得益于其重构参数化的特性。代码在以下地址公开可用:https://github.com/Lucenova/KARST。
发布时间: 2/11/2025
查看原文
作者: Brandon Trabucco, Gunnar Sigurdsson, Robinson Piramuthu, Ruslan Salakhutdinov
arXiv:2502.06776v1 交叉公告类型 摘要:目前训练网页导航代理的主要方法是为一组流行的网站收集人类示范和手写任务,但很明显,人类数据已成为一个低效的资源。我们开发了一条生产线来促进无劳动密集型人类注释的大规模互联网训练。在第一阶段,一个大语言模型生成150,000个多样化的网站任务。在下一阶段,大语言模型代理完成任务并生成轨迹。在最后阶段,一个大语言模型审查轨迹并判断其成功率。语言模型在检测和过滤有害内容方面比人类注释者更具竞争力,准确率达到97%,生成可行任务的比例为89%,判断成功轨迹的准确率为82.6%。扩展生产线,基于Llama 3.1 70B的代理解决了150,000个网站中16.7%的任务。使用我们生产线生成的数据进行训练的竞争性与使用人类示范进行训练相当。在从Mind2Web和WebLINX衍生的数据受限设置中,使用我们生产线和人类数据混合的数据训练的代理分别提高了Step Accuracy多达+89.5%和+122.1%。当使用这些基准所有可用的人类数据训练代理时,代理无法泛化到多种真实网站,但在WebLINX和Mind2Web中,加入我们的数据分别提高了其泛化能力+149.0%和+156.3%。代码将在以下网址提供:data-for-agents.github.io。
发布时间: 2/11/2025
查看原文
作者: Gaetano Rossiello, Nhan Pham, Michael Glass, Junkyu Lee, Shankar Subramanian
arXiv:2502.06759v1 交叉类型公告: 摘要:我们提出了一种生成链式思考(Chain-of-Thought,CoT)理由的框架,以增强文本到SQL模型的微调。这些理由包含中间的SQL语句和解释,作为构建最终SQL查询的逐步步骤。该过程始于手动注释一小部分示例,然后使用这些示例在从教师模型进行迭代且动态的少量示例知识精炼程序中提示一个大规模语言模型。随后,通过在验证拆解查询上训练一个解释模型,可以为文本到SQL数据集生成大量的合成CoT注解。为了评估该方法,我们在BIRD数据集上使用带有和不带有这些理由的小型语言模型进行微调。结果显示,逐步构建查询可以提高执行准确性,特别是在复杂和高度复杂的查询上,同时也能增强可解释性。
发布时间: 2/11/2025
查看原文
作者: Alex Vitvitskyi, Jo\~ao G. M. Ara\'ujo, Marc Lackenby, Petar Veli\v{c}kovi\'c
arXiv:2502.06751v1 交叉类型公布 摘要:正如大量关于图重布的研究文献所暗示的那样,神经网络所采用的计算图的选择对其下游性能可以产生显著影响。计算图相关的某些效应,如未能充分扩展和过度挤压,甚至可能使模型无法学习某些函数。这些效应大多数仅在无向图的领域中进行了详尽的研究;然而,在过去几年中,对反馈型计算图——没有回边的有向图——的兴趣显著增加。在本文中,我们研究了反馈型计算图的可取性质,发现了两种重要的互补度量:保真度和混合时间,并通过这些度量来评估几种流行的图选择。我们的研究基于对各种图的度量的渐近行为进行的理论分析,以及将这些度量与使用相应图训练的神经网络模型的性能联系起来。
发布时间: 2/11/2025
查看原文
作者: Meyer Scetbon, Chao Ma, Wenbo Gong, Edward Meeds
arXiv:2502.06742v1 宣传类型: cross 摘要: 训练大型语言模型(LLMs)通常依赖于自适应优化器,如Adam(Kingma & Ba, 2015),它们存储额外的状态信息以加速收敛,但会产生显著的内存开销。最近的努力,如SWAN(Ma et al., 2024)通过消除优化器状态的需求,同时利用多步预处理程序应用到瞬时梯度上来实现与Adam相当的性能。受SWAN成功的启发,我们引入了一个新的无状态优化器框架,根据多种范数对随机梯度进行规范化。为此,我们提出了一种简单的交替方案来强制梯度根据这些范数进行规范化。我们证明,我们的过程可以在任意精度下产生问题的固定点,并且SWAN是我们方法的一个特例,具有精心选择的范数,为我们更深入地理解其设计提供了帮助。然而,SWAN昂贵的去相关/正交化步骤限制了它在大规模LLM中的实用性。借助我们原则性的视角,我们开发了一个更高效、可扩展且实用的无状态优化器。我们的算法放松了SWAN的属性,显著降低了其计算成本,同时保持了其内存效率,使其适用于训练大规模模型。在使用多达10亿参数预训练LLaMA模型的实验中,与Adam相比,我们的方法在显著减少内存需求的情况下实现了3倍的加速,超越了其他内存高效的基线方法。
发布时间: 2/11/2025
查看原文
作者: Abhiroop Bhattacharjee, Jinquan Shi, Wei-Chen Chen, Xinxin Wang, Priyadarshini Panda
arXiv:2502.06736v1 通知类型: 交叉 摘要: 本文介绍了一种基于尖峰神经网络(SNNs)的尖峰事件可穿戴分析系统,这些SNNs部署在一个基于RRAM交叉阵列的内置计算引擎上,后者以其紧凑性和能效而闻名。鉴于底层RRAM交叉阵列的硬件限制和噪声特性,我们提出了一种实时在线调整预训练SNNs的方法,使用直接反馈对齐(DFA)替代传统的反向传播(BP)。直接反馈对齐(DFA)学习能够在层级并行梯度计算,作为在RRAM交叉阵列上在线调整SNNs的一种快速且能效和面积高效的方 法,与使用BP进行调整相比,能获得更好的算法性能。通过使用我们内部的硬件评估引擎DFA_Sim进行广泛的仿真,我们发现DFA相比于BP实现了最多64.1%的能耗降低、10.1%的面积增益,并且延迟减少了2.1倍,同时在人类活动识别(HAR)任务上的推断准确性提高了最多7.55%。
发布时间: 2/11/2025
查看原文
作者: Daouda Sow, Herbert Woisetschl\"ager, Saikiran Bulusu, Shiqiang Wang, Hans-Arno Jacobsen, Yingbin Liang
arXiv:2502.06733v1 声明类型: cross 摘要:在庞大的异质数据集上预训练大型语言模型(LLMs)对于在各种下游任务中实现最先进的性能至关重要。然而,当前的训练范式对所有样本一视同仁,忽视了整个训练过程中个别样本的重要性或相关性。现有的重新加权策略主要侧重于组级数据的重要性,未能利用细粒度实例级的信息,并且无法随着训练的进行动态适应个别样本的重要性。在本文中,我们引入了新的算法,用于动态、实例级数据重新加权,以提高LLM预训练的效率和效果。我们的方法根据每个训练样本的损失值在线动态调整其权重,使模型能够在当前训练阶段动态地关注更有信息量或更重要的样本。特别是,我们的框架使我们能够系统地设计重新加权策略,优先考虑冗余或无信息数据,我们发现这些策略往往表现最佳。此外,我们开发了新的理论框架,用于分析基于损失的重新加权对梯度优化收敛性的影响,这是首次正式描述这些策略如何影响收敛边界。我们通过各种任务对我们的方法进行了经验验证,从预训练包含70亿和140亿参数的LLM到较小规模的语言模型和线性回归问题,表明我们的基于损失的重新加权方法可以导致更快的收敛和显著提高性能。
发布时间: 2/11/2025
查看原文
作者: Mogens Henrik From, Jacob Nielsen, Lukas Galke, Peter Schneider-Kamp
arXiv:2502.06728v1 公开发表类型: cross 摘要: 训练大型神经网络模型需要广泛的计算资源,通常分布在多个节点和加速器上。最近的研究表明,可能只需要交换梯度的快速移动部分,同时在本地累积动量(解耦动量,或DeMo)。然而,当考虑更大的模型无法加载到单个加速器上时,梯度信息的交换和DeMo的集成需要重新考虑。在这里,我们提出了一种混合策略FlexDeMo,其中节点在同一GPU之间完全本地同步,并通过仅使用快速移动的部分来改进节点间通信。这一策略有效地结合了之前的混合分片策略和解耦动量的优点。我们的实验结果表明,FlexDeMo在验证损失方面与AdamW相当,展示了其可行性。
发布时间: 2/11/2025
查看原文
作者: Amin Adibi, Xu Cao, Zongliang Ji, Jivat Neet Kaur, Winston Chen, Elizabeth Healey, Brighton Nuwagira, Wenqian Ye, Geoffrey Woollard, Maxwell A Xu, Hejie Cui, Johnny Xi, Trenton Chang, Vasiliki Bikia, Nicole Zhang, Ayush Noori, Yuan Xia, Md. Belal Hossain, Hanna A. Frank, Alina Peluso, Yuan Pu, Shannon Zejiang Shen, John Wu, Adibvafa Fallahpour, Sazan Mahbub, Ross Duncan, Yuwei Zhang, Yurui Cao, Zuheng Xu, Michael Craig, Rahul G. Krishnan, Rahmatollah Beheshti, James M. Rehg, Mohammad Ehsanul Karim, Megan Coffee, Leo Anthony Celi, Jason Alan Fries, Mohsen Sadatsafavi, Dennis Shung, Shannon McWeeney, Jessica Dafflon, Sarah Jabbour
arXiv:2502.06693v1 交叉类型: 摘要:第四届机器学习与健康(ML4H)研讨会于2024年12月15日至16日在加拿大不列颠哥伦比亚省温哥华的传统、祖传且未被占领的穆斯夸姆、斯夸米什和特列-乌托族国家的土地上举行。研讨会包括了研究圆桌会议,旨在促进参与者与高级研究人员就ML4H社区相关和及时的议题进行讨论。会议上的研究圆桌会议组织涉及13名高级和27名初级主席,分布在13个圆桌。每个圆桌会议包括一位受邀的高级主席(在该领域拥有丰富经验)、几位负责促进讨论的初级主席以及来自不同背景、对会议议题感兴趣的与会者。
发布时间: 2/11/2025
查看原文