LLM2D

arXiv 论文列表

作者: Paolo Glorioso, Quentin Anthony, Yury Tokpanov, Anna Golubeva, Vasudev Shyam, James Whittington, Jonathan Pilault, Beren Millidge
本技术报告介绍了Zamba2系列模型——一套参数量分别为12亿、27亿和74亿的混合Mamba2-Transformer模型。该系列模型在同级别领先的开放权重模型中取得了最先进的性能,同时在推理延迟、吞吐量和内存效率方面取得了显著提升。Zamba2系列基于我们最初的Zamba1-7B模型的工作,对其架构、训练和退火数据集以及训练过程(最多达3万亿个token)进行了优化。我们为Zamba2系列的所有模型以及具有强大竞争力的指令微调变体提供了开源权重。此外,我们还开源了用于训练Zamba2系列模型的预训练数据集Zyda-2。本工作中使用的模型和数据集可在https://huggingface.co/Zyphra公开获取。
发布时间: 11/26/2024
查看原文
可穿戴式加速度计(肌动图)自20世纪70年代以来为临床研究提供了宝贵的数据,并且随着可穿戴设备的日益普及,其重要性也日益提高。肌动图在研究和临床环境中的有效性在很大程度上取决于所使用的建模架构。为了解决这个问题,我们开发了预训练肌动图转换器(PAT)——第一个专门设计用于处理肌动图的预训练全注意力模型。PAT 使用来自 NHANES 29,307 名参与者的肌动图进行预训练,使其能够在针对精神健康领域各种肌动图预测任务进行微调后,即使在数据有限的情况下也能提供最先进的性能。例如,当使用仅来自 500 名标记参与者的肌动图来预测苯二氮卓类药物的使用时,PAT 的 AUC 提高了 8.8 个百分点,优于最佳基线。PAT 参数少于 200 万个,并具有内置的模型可解释性,因此它既强大又易于在健康研究环境中部署。
发布时间: 11/26/2024
查看原文
作者: Manahil Raza, Saad Bashir, Talha Qaiser, Nasir Rajpoot
数字化的组织学切片过程涉及多个可能影响全玻片图像 (WSI) 最终外观的因素,包括染色方案、扫描仪和组织类型。这种可变性构成了一个领域差异,并在多队列环境中训练和测试深度学习 (DL) 算法时导致重大问题。因此,在计算病理学 (CPath) 中开发稳健且可泛化的 DL 模型仍然是一个开放性的挑战。在这方面,我们提出了一种框架,该框架使用染色矩阵扰动生成训练图像的染色增强版本。此后,我们采用染色正则化损失来加强源图像和增强图像的特征表示之间的一致性。这样做鼓励模型学习染色不变的,因此是领域不变的特征表示。我们在结直肠癌图像的跨域多类别组织类型分类上评估了所提出模型的性能,并且与其他最先进的方法相比取得了改进的性能。
发布时间: 11/26/2024
查看原文
作者: Marco Paul E. Apolinario, Kaushik Roy
持续学习,即逐步整合新概念的能力,是智能生物的基石,使它们能够在动态环境中适应变化。相比之下,人工深度神经网络在顺序学习新任务时面临灾难性遗忘的挑战。为了减轻遗忘问题,最近的方法旨在通过梯度投影限制对正交子空间的更新来保留先前任务的重要权重子空间。虽然这种方法有效,但在任务高度相关的情况下可能会导致次优性能。在这项工作中,我们引入了基于概念器的深度持续学习梯度投影 (CODE-CL),这是一种新方法,它利用受神经科学启发的计算模型——概念器矩阵表示——更灵活地处理高度相关的任务。CODE-CL 对过去任务的输入空间内的方向重要性进行编码,允许在由 1-S 调制的方向上整合新知识,其中 S 代表该方向与先前任务的相关性。此外,我们使用基于概念器的表示分析任务重叠,以识别高度相关的任务,从而通过在其相交子空间内的缩放投影来促进有效的正向知识转移。这种策略增强了灵活性,允许在相关任务中学习而不会显著破坏之前的知识。在持续学习图像分类基准上的大量实验验证了 CODE-CL 的有效性,展示了其在最小遗忘情况下的优越性能,优于大多数最先进的方法。
发布时间: 11/26/2024
查看原文
生物智能具有内在的适应性——动物会根据环境反馈持续调整其行为。然而,创造适应性人工智能 (AI) 仍然是一个重大挑战。下一个前沿是超越传统人工智能,开发“适应性智能”,这里将其定义为利用生物智能的见解来构建能够在线学习、泛化并快速适应环境变化的智能体。神经科学的最新进展为我们提供了灵感,这些研究越来越关注动物如何自然地学习和适应其世界模型。在本篇述评中,我将回顾适应性生物智能的行为和神经基础、人工智能领域的平行进展,并探讨受大脑启发的构建更具适应性算法的方法。
发布时间: 11/26/2024
查看原文
作者: Hongxu Chen, Runshi Li, Bowei Zhu, Zhen Wang, Long Chen
低秩适应(LoRA)广泛用于微调跨不同领域的各种大型模型以用于特定的下游任务。虽然特定任务的LoRA通常可用,但对数据隐私和知识产权的担忧可能会限制对训练数据的访问,从而限制通过基于梯度的训练获取多任务模型。作为回应,LoRA合并通过将多个LoRA合并到一个统一的适配器中,同时保持数据隐私,提供了一种有效的解决方案。以往关于LoRA合并的工作主要将其定义为一个优化问题,但这些方法面临着几个局限性,包括对优化中使用的输入特征的粗略假设、巨大的样本需求以及不平衡的优化目标。这些限制会严重降低性能。为了解决这些问题,我们提出了一种新颖的基于优化的算法,名为IterIS:1)我们将LoRA合并公式化为一个高级优化问题,以减轻粗略假设的影响。此外,我们在算法中采用了一种迭代推理求解框架。它可以逐步改进优化目标以提高性能。2)我们引入了一个有效的正则化项,以减少对海量样本需求(与以往的方法相比,只需要1-5%的未标记样本)。3)我们在优化目标中使用自适应权重,以减轻LoRA合并过程中潜在的不平衡。我们的方法在文本到图像扩散、视觉语言模型和大型语言模型的组合任务中,比多个基线和最先进的方法都取得了显著的改进。此外,我们的分层算法只需最少的步骤即可收敛,确保了内存和计算效率。
发布时间: 11/26/2024
查看原文
作者: Seokil Ham, Hee-Seon Kim, Sangmin Woo, Changick Kim
尽管人们越来越关注 Mamba 架构作为 Transformer 架构的潜在替代方案,但 Mamba 架构的参数高效微调 (PEFT) 方法在很大程度上仍未得到探索。在我们的研究中,我们介绍了两种关键的洞察力驱动的 Mamba 架构 PEFT 策略:(1)虽然状态空间模型 (SSM) 被认为是 Mamba 架构的基石,并有望在迁移学习中发挥主要作用,但我们的研究结果表明,投影器——而不是 SSM——是迁移学习的主要贡献者;(2)基于我们观察到,通过近对角线线性变换可以有效地逼近将预训练投影器适应新任务,我们提出了一种专门针对 Mamba 架构的新的 PEFT 方法:目标投影器对角中心线性变换 (ProDiaL)。ProDiaL 侧重于仅优化对角中心线性变换矩阵,而不直接微调预训练投影器的权重。这种有针对性的方法可以实现高效的任务适应,使用的参数不到总参数的 1%,并且在视觉和语言 Mamba 模型上都表现出强大的性能,突出了其多功能性和有效性。
发布时间: 11/26/2024
查看原文
作者: Ke Zhao (Wuhan University), Huayang Huang (Wuhan University), Miao Li (Wuhan University), Yu Wu (Wuhan University)
基于语言的机器人学习通过使单个模型能够响应语音指令执行各种任务,显著增强了机器人的适应性。然而,该领域的安全漏洞在很大程度上仍未被探索。本文通过提出一种针对基于语言的机器人模型的新型对抗性提示攻击来解决这一差距。我们的方法涉及设计一个通用的对抗性前缀,当添加到任何原始提示时,都会诱导模型执行意外的动作。我们证明,由于离散化机器人动作空间的固有鲁棒性,现有的对抗性技术在直接转移到机器人领域时效果有限。为了克服这一挑战,我们提出基于连续动作表示来优化对抗性前缀,从而绕过离散化过程。此外,我们确定了中间特征对对抗性攻击的有益影响,并利用中间自注意力特征的负梯度来进一步提高攻击效率。在 13 个机器人操作任务中对 VIMA 模型进行的大量实验验证了我们的方法优于现有方法,并证明了其在不同模型变体上的可迁移性。
发布时间: 11/26/2024
查看原文
自从OpenAI的ChatGPT等生成式人工智能(AI)工具广泛可用以来,研究人员已将其用于写作过程。学术出版界的共识是,此类用法必须在已发表的文章中声明。Academ-AI文件记录了学术文献中疑似未声明AI用法的示例,主要是因为研究论文中出现了大型语言模型(LLM)聊天机器人特有的表达方式。对收集到的前500个示例的分析表明,这个问题非常普遍,渗透到享有盛誉的出版商的期刊和会议论文集中。未声明的AI似乎出现在具有更高引用指标和更高文章处理费(APC)的期刊中,正是这些期刊理论上应该拥有避免此类疏忽的资源和专业知识。极少数情况会在发表后得到纠正,而这些纠正通常不足以纠正问题。此处分析的500个示例可能仅代表学术文献中未声明AI的一小部分,其中大部分可能无法检测到。出版商必须执行其针对可检测到的未声明AI用法的政策;这是学术出版界目前对抗未公开AI泛滥的最佳防御手段。
发布时间: 11/26/2024
查看原文
作者: Shreen Gul, Mohamed Elmahallawy, Sanjay Madria, Ardhendu Tripathy
机器学习模型因其卓越的性能和强大的泛化能力,正越来越多地应用于各个领域和任务。然而,它们的成功依赖于大量标注数据的可用性,而这些数据的创建往往费力、耗时且昂贵。许多主动学习 (AL) 方法被提出以应对这些挑战,但它们往往未能充分利用主动学习核心阶段的信息,例如在标注集上进行训练和查询新的未标注样本。为了弥合这一差距,我们提出了一种新颖的主动学习方法 LPLgrad(梯度范数损失预测损失),旨在有效量化模型的不确定性并提高图像分类任务的准确性。LPLgrad 分为两个不同的阶段:(i) *训练阶段* 旨在通过联合训练主模型和辅助模型来预测输入特征的损失。两个模型都在标注数据上进行训练,以最大限度地提高学习过程的效率,这是以往主动学习方法中经常被忽视的一个方面。这种双模型方法增强了有效提取复杂输入特征和学习数据内在模式的能力;(ii) *查询阶段* 量化主模型的不确定性以指导样本选择。这是通过计算未标注数据集中样本熵值的梯度范数来实现的。优先选择梯度范数最高的样本进行标注,然后将其添加到标注集中,从而在最小的标注工作量下提高模型的性能。对真实世界数据集的大量评估表明,在少量标注图像的情况下,LPLgrad 方法在准确性方面比最先进的方法高出一个数量级,但在多个图像分类任务中实现了可比的训练和查询时间。
发布时间: 11/26/2024
查看原文