LLM2D

arXiv 论文列表

作者: Roseval Malaquias Junior, Ramon Pires, Thales Sales Almeida, Kenzo Sakiyama, Roseli A. F. Romero, Rodrigo Nogueira
arXiv:2501.02068v3 公告类型: replace-cross 摘要:语言模型的标度法则通常集中在寻找从头开始训练时的最佳模型大小和标记数。然而,实现这种最佳平衡需要大量的计算资源,因为从随机初始化的权重开始训练模型需要大量的数据。继续进行预训练提供了一种成本效益较高的替代方案,利用预训练模型的计算投资来引入新知识,而无需大量新的数据。最近的研究表明,数据质量影响标度法则中的常数,从而改变最优参数-标记分配比例。在此见解的基础上,我们研究了计算受限场景下持续预训练期间学科专业化和模型大小之间的相互作用。我们的目标是在这种情况下确定一个最佳训练制度,并检测可以跨不同模型大小和学科推广的这种相互作用的模式。为了比较通用和专业化的训练,我们过滤了一个基于网络的数据集,从中提取了三个学科的数据:法律、医疗和会计。我们使用1.5B、3B、7B和14B参数对未经筛选和筛选后的数据集进行了预训练,然后在特定学科的考试中评估它们的性能。结果显示,随着模型大小的增加,专业化的模型在训练计算量较少的情况下优于通用模型。此外,其不断增长的计算效率导致对先前学习知识的遗忘减少。
发布时间: 4/1/2025
查看原文
作者: Jingyi Zheng, Tianyi Hu, Tianshuo Cong, Xinlei He
arXiv:2412.19037v2 宣告类型: 替换-交叉 摘要:后门攻击通过触发大型语言模型输出特定和受控的内容,显著削弱了它们的安全性。目前,文本后门攻击的触发器分为两类:固定词汇触发器和句子模式触发器。然而,前者通常容易被识别和过滤,而后者,如句法和风格,不一定适用于所有原始样本,并可能导致语义偏移。在本文中,受现实场景中LLM的跨语言(CL)提示的启发,我们提出了一种在段落级别使用的更高维度触发方法,即CL-攻击。CL-攻击通过使用包含多种语言的特定结构文本来植入后门,从而与现有后门攻击技术相比具有更高的隐蔽性和适用性。在不同任务和模型架构上的广泛实验表明,CL-攻击在分类和生成任务中可以实现近100%的攻击成功率,同时污染率相对较低。我们也实验证明,与基线后门攻击相比,CL-攻击对当前主要防御方法的抵抗力更强。此外,为了缓解CL-攻击,我们进一步开发了一种新的防御方法,即TranslateDefense,它可以部分缓解CL-攻击的影响。
发布时间: 4/1/2025
查看原文
arXiv:2412.18947v4 宣传类型: 替换-交叉 摘要:医学大型语言模型(MLLMs)在医疗应用方面展现了潜在价值,但它们生成医学上不可信或不准确信息的能力——即幻觉——对患者护理构成了重大风险。本文介绍了一套名为MedHallBench的全面基准框架,用于评估和缓解MLLMs中的幻觉。我们的方法将经过专家验证的医学案例场景与现有医学数据库结合,以创建一个强大的评估数据集。该框架采用了一种复杂的度量系统,结合了自动ACHMI(医学影像中的自动幻视分标题测量)评分与严格的临床专家评估,并利用强化学习方法实现自动注释。通过专门为医学应用设计的优化强化学习从人类反馈(RLHF)训练管道,MedHallBench能够在严格准确标准的同时,对MLLMs在多种临床背景下进行全面评估。我们进行了涉及多种模型的比较实验,利用基准建立了广泛采用的大型语言模型(LLMs)的基础。我们的研究结果表明,ACHMI相比传统指标提供了更细致的幻视效应对比理解,从而突显了其在评估幻视方面的优势。这项研究为提高MLLMs在医疗环境中的可靠性奠定了基础框架,并提出了应对医学应用中AI幻觉的行动策略。
发布时间: 4/1/2025
查看原文
作者: Dou El Kefel Mansouri, Seif-Eddine Benkabou, Khalid Benabdeslem
arXiv:2412.18247v2 Announce Type: replace-cross 摘要:Fréchet回归将线性回归扩展到度量空间中建模复杂的响应,使其特别适用于多标签回归,其中每个实例可以有多个关联标签。然而,在这种框架内处理噪声和预测变量之间的依赖关系尚未得到充分探索。在本文中,我们提出了Global Fréchet回归模型的扩展,使其能够明确建模输入变量与多个响应之间的关系。为了应对噪声和多重共线性带来的挑战,我们提出了一种基于隐式正则化的新型框架,这种方法在保留数据固有结构的同时,有效地捕捉了复杂的依赖关系。我们的方法确保在不引入传统显式正则化方法所引入的偏差下,实现准确且高效的建模。提供了理论担保,并通过数值实验展示了所提出方法的性能。
发布时间: 4/1/2025
查看原文
作者: Nan Yang, Chong Wang, Meihua Zhao, Zimeng Zhao, Huiling Zheng, Bin Zhang, Jianing Wang, Xiaofeng Li
arXiv:2412.18097v3 宣布类型: 替换-交叉 摘要:海洋预报对于科学研究和社会效益至关重要。目前,最准确的预报系统是全球海洋预报系统(GOFSs),它将海洋状态变量(OSVs)表示为离散网格,并使用数值方法求解描述海洋状态变量过渡的偏微分方程(PDEs)。然而,GOFSs 的处理过程计算成本高昂,并且容易累积误差。最近,大型人工神经网络(AI)模型显著提高了预报速度和准确性。不幸的是,构建一个可被视为跨时空和大气-海洋耦合的大型 AI 海洋预报系统仍然是一项重大挑战。在这里,我们介绍了 LangYa,这是一种跨时空和大气-海洋耦合的海洋预报系统。结果表明,LangYa 的时间嵌入模块使一个单一模型能够进行从1天到7天不等的预报。大气-海洋耦合模块有效地模拟了大气-海洋相互作用。海洋自身注意力模块在训练过程中提高了网络稳定性并加速了收敛,而自适应温跃层损失函数提高了温跃层预报的准确性。与现有的数值和基于 AI 的海洋预报系统相比,LangYa 利用了来自 GLORYS12 版本 12 的全球海洋再分析和模拟 27 年的数据进行训练,并实现了更可靠的 OSVs 确定性预报结果。LangYa 预报系统为全球海洋研究人员提供了准确海洋预报的强大软件工具,并开启了海洋科学的新范式。
发布时间: 4/1/2025
查看原文
arXiv:2412.17387v3 宣告类型: replace-cross 摘要: 虽然剪枝方法可以在不增加额外训练成本的情况下有效维持模型性能,但它们往往仅专注于保留关键连接,忽略了剪枝权重对后续微调或蒸馏的影响,导致效率低下。此外,大多数生成模型的压缩技术主要针对如StyleGAN这类特定架构的GANs开发,而对扩散模型的压缩研究刚刚起步。更具体地说,这些方法往往仅适用于GANs或扩散模型,突显了在两种模型类型之间寻求有效方法的必要性。在本文中,我们提出了奇异值缩放(SVS),这是一种适用于两种模型类型的通用技巧,用于精炼剪枝权重。我们的分析表明,剪枝权重通常表现出主导奇异向量,这反而阻碍了微调效率,并导致与随机初始化相比,性能较低。我们的方法通过最小化剪枝权重的奇异值差异来改进权重初始化,从而提高微调过程的效果。该方法不仅引导压缩模型朝着更好的解决方案发展,还显著加快了微调过程。在StyleGAN2、StyleGAN3和DDPM上的广泛实验表明,SVS能够在不增加额外训练成本的情况下改进不同模型类型的压缩性能。我们的代码可在以下链接获取:https://github.com/LAIT-CVLab/Singular-Value-Scaling。
发布时间: 4/1/2025
查看原文
作者: Shuai Lyu, Rongchen Zhang, Zeqi Ma, Fangjian Liao, Dongmei Mo, Waikeung Wong
arXiv:2412.16897v2 Announce Type: replace-cross 摘要:少样本缺陷多分类(FSDMC)是工业制造中的质量控制中的一个新兴趋势。然而,当前的FSDMC研究往往由于集中在特定的数据集上而缺乏普适性。此外,缺陷分类高度依赖于图像中的上下文信息,而现有的方法在有效提取这些信息方面存在不足。为了应对这些挑战,我们提出了一种通用的FSDMC框架MVREC,该框架具有两个主要优势:(1)MVREC通过结合预训练的AlphaCLIP模型提取缺陷实例的一般特征。(2)它利用区域上下文框架通过利用掩码区域输入和多视图上下文增强来增强缺陷特征。此外,模型中引入了Few-shot Zip-Adapter(-F)分类器,用于缓存支持集的视觉特征并执行少样本分类。我们还基于MVTec AD引入了MVTec-FS这一新的FSDMC基准,其中包括1228个带有实例级掩码注释的缺陷图像和46种缺陷类型。在MVTec-FS和四个额外数据集上进行的广泛实验表明,其在通用缺陷分类方面的效果,并且能够结合上下文信息以提高分类性能。代码:https://github.com/ShuaiLYU/MVREC
发布时间: 4/1/2025
查看原文
作者: Litingyu Wang, Wenjun Liao, Shichuan Zhang, Guotai Wang
arXiv:2412.14846v2 宣布类型: 替换交叉 摘要:头颈部肿瘤和转移性淋巴结对于治疗计划和预后分析至关重要。这些结构的准确分割和定量分析需要像素级别的注释,因此自动分割技术对于头颈部癌症的诊断和治疗至关重要。在本研究中,我们探讨了多种策略对预放疗(pre-RT)和中期放疗(mid-RT)图像分割效果的影响。对于预放疗图像的分割,我们使用了:1)完全监督学习方法,2)该方法结合预训练权重和MixUp数据增强技术进行增强。对于中期放疗图像,我们引入了一种新的计算友好型网络架构,该架构具有专门的编码器用于中期放疗图像和与标签注册的预放疗图像。中期放疗编码器分支在正向传播过程中逐步整合预放疗图像和标签的信息。我们从每折中选择了性能最高的模型,并使用它们的预测创建了一个集成平均值进行推理。在最终测试中,我们的模型在综合dice相似性系数(DSC)HiLab上,对于预放疗图像的分割性能达到了82.38%,对于中期放疗图像的分割性能为72.53%。我们的代码可在 https://github.com/WltyBY/HNTS-MRG2024_train_code 获取。
发布时间: 4/1/2025
查看原文
作者: Yueqian Lin, Yuzhe Fu, Jingyang Zhang, Yudong Liu, Jianyi Zhang, Jingwei Sun, Hai "Helen" Li, Yiran Chen
arXiv:2412.12009v2 通知类型: replace-cross 摘要: 我们引入了语音信息检索(SIR),这是一种新的长上下文任务,适用于语音大语言模型(语音LLMs),并介绍了SPIRAL基准测试集,包含1012个样本,用于测试模型从约90秒的语音输入中提取关键细节的能力。当前的语音LLMs在短任务上表现出色,但在处理较长音频序列的计算和表征需求上存在困难。为了解决这一限制,我们提出了一种无需训练的音素修剪策略SpeechPrune,它使用语音-文本相似性和近似注意分数来高效地丢弃无关的音素。在SPIRAL中,SpeechPrune分别在修剪率为20%的情况下,相对于原始模型和随机修剪模型,实现了29%和至多47%的准确性提升。即使在80%的修剪水平下,SpeechPrune也能保持网络性能。这种方法突显了音素级修剪在高效和可扩展的长语音理解中的潜在价值。
发布时间: 4/1/2025
查看原文
作者: Nathana\"el Carraz Rakotonirina, Corentin Kervadec, Francesca Franzon, Marco Baroni
arXiv:2412.08127v3 宣告类型: replace-cross 摘要:广泛观察到,语言模型(LMs)对看似不可理解的算法生成的提示作出可预测的响应。这既表明我们对LMs的工作方式缺乏全面的理解,也是一个实际挑战,因为这种不透明性可以被利用来有害地使用LMs,例如越狱。我们首次对6种不同大小和类型的LMs相关的不透明机器生成提示,或自助提示进行了全面分析。我们发现,机器生成的提示通常由一个可理解的最后一个词组成,这一词强烈影响生成结果。前几个词中有一小部分是可剪枝的,很可能产生于优化过程固定词数的事实。剩余的词分为两类:填充词,可以被语义上不相关的替代词所替换;以及关键字,虽然它与生成结果之间有一定的语义关联,但通常不参与良好的语法关系。此外,人类专家可以可靠地在事后识别出自助提示中最关键的词,表明这些提示并非完全不透明。最后,我们对自助提示的一些消融实验在自然语言输入中也产生了类似的效果,表明这些提示自然地来自于LMs处理语言输入的一般方式。
发布时间: 4/1/2025
查看原文