LLM2D

arXiv 论文列表

作者: Siqi Wang, Zhengyu Chen, Bei Li, Keqing He, Min Zhang, Jingang Wang
大型语言模型(LLMs)的扩展是模型训练和部署效率和有效性的关键研究领域。我们的工作研究了密集模型和专家混合模型(MoE)之间扩展定律的可迁移性和差异。通过理论分析和大量实验的结合,包括一致的损失缩放、最佳批次大小和学习率缩放以及资源分配策略缩放,我们的研究结果表明,幂律缩放框架也适用于 MoE 模型,表明即使架构不同,这些模型的缩放行为的根本原则也得以保留。此外,MoE 模型表现出优越的泛化能力,与密集模型相比,在相同的训练计算预算下,测试损失更低。这些发现表明了 MoE 模型的缩放一致性和迁移泛化能力,为优化 MoE 模型训练和部署策略提供了新的见解。
发布时间: 10/10/2024
查看原文
作者: Serin Yang, Taesung Kwon, Jong Chul Ye
大型文本到视频 (T2V) 和图像到视频 (I2V) 扩散模型的最新进展极大地增强了视频生成,尤其是在关键帧插值方面。然而,现有的图像到视频扩散模型虽然在从单个条件帧生成视频方面功能强大,但需要适应两帧(开始和结束)条件生成,这对于有效的边界插值至关重要。不幸的是,现有的在并行中融合时间正向和反向路径的方法通常会遇到偏离流形的问题,从而导致伪影或需要多次迭代重新加噪步骤。在本文中,我们提出了一种新颖的双向采样策略,以解决这些偏离流形问题,而无需进行广泛的重新加噪或微调。我们的方法分别根据开始帧和结束帧,沿着正向和反向路径进行顺序采样,从而确保更连贯且在流形上的中间帧生成。此外,我们还加入了先进的引导技术,CFG++ 和 DDS,以进一步增强插值过程。通过整合这些技术,我们的方法取得了最先进的性能,能够高效地生成关键帧之间高质量、平滑的视频。在一台单一的 3090 GPU 上,我们的方法可以在 195 秒内以 1024 x 576 分辨率插值 25 帧,使其成为关键帧插值的首选解决方案。
发布时间: 10/10/2024
查看原文
作者: Zhipeng Xue, Penghao Cai, Xiaojun Yuan, Xiqi Gao
现有的基于扩散的反问题方法使用分数函数从后验分布中采样,并将生成的随机样本作为解。在需要后验均值的应用中,需要从后验分布中生成多个样本,这非常耗时。本文通过分析条件反向扩散过程的概率密度演变,证明了后验均值可以通过跟踪每个反向扩散步骤的均值来实现。基于此,我们建立了一个名为反向均值传播 (RMP) 的框架,该框架直接针对后验均值。我们证明了 RMP 可以通过解决一个变分推断问题来实现,该问题可以进一步分解为最小化每个反向步骤的反向 KL 散度。我们进一步开发了一种算法,该算法使用分数函数用自然梯度下降优化反向 KL 散度,并在每个反向步骤传播均值。实验验证了我们框架理论的有效性,并表明我们的算法在各种反问题中以更低的计算复杂度优于最先进的算法,在重建性能方面表现出色。
发布时间: 10/10/2024
查看原文
作者: Hui Chen, Hengyu Liu, Yaqiong Li, Xuhui Fan, Zhilin Zhao, Feng Zhou, Christopher John Quinn, Longbing Cao
时间点过程 (TPP) 能够有效地对事件随时间的发生进行建模,但在隐私至关重要的联邦系统中,它们难以处理稀疏且不确定的事件。为了解决这个问题,我们提出了 \textit{FedPP},一个联邦神经非参数点过程模型。FedPP 将神经嵌入整合到客户端的 S 型高斯 Cox 过程 (SGCP) 中,这是一种灵活且表达能力强的 TPP 类别,使其能够生成高度灵活的强度函数,这些函数可以捕获特定于客户端的事件动态和不确定性,同时有效地总结历史记录。对于全局聚合,FedPP 引入了一种基于散度的机制,该机制在服务器和客户端之间传递 SGCP 核超参数的分布,同时将特定于客户端的参数保留在本地以确保隐私和个性化。FedPP 有效地捕获了事件的不确定性和稀疏性,大量的实验表明了它在联邦环境中的优越性能,特别是使用 KL 散度和基于 Wasserstein 距离的全局聚合。
发布时间: 10/10/2024
查看原文
作者: Yufan Zhuang, Chandan Singh, Liyuan Liu, Jingbo Shang, Jianfeng Gao
大型语言模型(LLMs)在文本数据上展现出非凡的上下文学习(ICL)能力。我们探索了这些能力是否可以扩展到从黑盒预训练编码器获得的来自不同领域的连续向量。通过使用轻量级投影器将输入数据与 LLM 的嵌入空间对齐,我们观察到 LLM 可以有效地处理和学习这些投影向量,我们将其称为向量-ICL。特别地,我们发现使用通用语言建模目标预训练投影器可以实现向量-ICL,而特定于任务的微调可以进一步提高性能。在我们针对各种任务和模态(包括文本重建、数值函数回归、文本分类、摘要、分子字幕、时间序列分类、图分类和 fMRI 解码)进行的实验中,向量-ICL 通常优于少样本 ICL 和特定领域的模型或调优。我们还进行了分析和案例研究,表明 LLM 在处理传统基于标记范式之外的向量表示方面的潜力。
发布时间: 10/10/2024
查看原文
作者: Junghun Oh, Sungyong Baik, Kyoung Mu Lee
为了在保留基础(旧)类知识的同时,仅用少量样本增量学习新类,小样本类增量学习(FSCIL)面临着过拟合和灾难性遗忘等诸多挑战。这种具有挑战性的问题通常通过固定在基础类上训练的特征提取器来解决,以减少过拟合和遗忘的不利影响。在这种情况下,我们的主要关注点是基础类上的表示学习,以解决 FSCIL 的独特挑战:同时实现学习表示的可迁移性和可区分性。在最近为增强可迁移性(例如促进特征扩散)而做出的努力的基础上,我们发现,尝试在更受限的特征空间内确保特征扩散,可以让学习到的表示在可迁移性和可区分性之间取得更好的平衡。因此,与之前认为类间距离应该最大化的观点形成鲜明对比,我们认为,不同的类越接近,对 FSCIL 越有利。从信息瓶颈理论的角度进行的实证结果和分析证明了我们简单但看似违反直觉的表示学习方法,提出了研究问题并提出了替代研究方向。代码可在 https://github.com/JungHunOh/CLOSER_ECCV2024 获取。
发布时间: 10/10/2024
查看原文
梯度提升分类器 (GBC) 是一种广泛用于二元分类的机器学习算法,它通过迭代构建决策树来最小化预测误差。本文解释了 GBC 的训练和预测过程,重点关注终端节点值 $\gamma_j$ 的计算,该值对于优化逻辑损失函数至关重要。我们通过泰勒级数逼近推导出 $\gamma_j$,并为算法的实现提供了一个逐步的伪代码。该指南解释了 GBC 的理论及其在实际应用中的有效性,展示了它在二元分类任务中的有效性。我们在附录中提供了一个逐步的示例,以帮助读者理解。
发布时间: 10/10/2024
查看原文
作者: Yunhui Jang, Jaehyung Kim, Sungsoo Ahn
大型语言模型 (LLMs) 在化学领域的应用已在分子理解任务中展现出可观的性能,例如根据分子生成文本描述。然而,基于分子结构信息的合理推理仍然是一个重大挑战,例如,即使是像 GPT-4o 这样的先进 LLM 也难以识别功能基团,而功能基团对于推断目标分子性质至关重要。为了解决这一局限性,我们提出了 StructCoT,一种结构感知的思维链 (CoT),它通过显式注入分子的关键结构特征来增强 LLM 对分子结构的理解。此外,我们引入了两个微调框架,用于使现有 LLM 能够使用我们的 StructCoT。我们的实验表明,将 StructCoT 与我们的微调框架相结合,在分子理解任务中都带来了持续的改进。
发布时间: 10/10/2024
查看原文
作者: Zheyang Xiong, Ziyang Cai, John Cooper, Albert Ge, Vasilis Papageorgiou, Zack Sifakis, Angeliki Giannou, Ziqian Lin, Liu Yang, Saurabh Agarwal, Grigorios G Chrysos, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos
大型语言模型(LLMs)已经展现出非凡的上下文学习(ICL)能力。在本研究中,我们探索了与ICL相关的一个令人惊讶的现象:LLMs可以在单个推理调用期间同时执行多个计算上不同的ICL任务,我们称这种能力为“任务叠加”。我们提供了跨越各种LLM家族和规模的实证证据,表明即使我们训练模型一次上下文学习一个任务,这种现象也会出现。我们提供了理论解释,证明这种能力完全在transformer的表达能力范围内。我们还探索了LLMs在叠加过程中如何内部组合任务向量。此外,我们还表明,更大的模型可以并行解决更多ICL任务,并更好地校准其输出分布。我们的发现提供了对LLMs潜在能力的见解,进一步证实了“LLMs作为模拟器叠加”的观点,并提出了关于使同时执行任务成为可能机制的问题。
发布时间: 10/10/2024
查看原文
在众多科学与工程领域,刚性常微分方程组(ODEs)无处不在,但标准的神经ODE方法难以学习它们。这一局限性是神经ODE广泛应用的主要障碍。本文提出了一种基于单步隐式格式的方法,使神经ODE能够处理刚性问题,并证明了我们的隐式神经ODE方法可以学习刚性动力学。这项工作解决了当前神经ODE方法的关键局限性,为其在更广泛的科学问题中的应用铺平了道路。
发布时间: 10/10/2024
查看原文