LLM2D

arXiv 论文列表

arXiv:2505.06272v1 标题类型: cross 摘要: 随着深度学习模型的扩展,预训练-微调范式已成为处理各种下游任务的标准方法。然而,在处理涉及多个任务的复杂数据集时,共享参数会导致性能下降。虽然引入混合专家(MoE)方法在一定程度上缓解了这一问题,但也显著增加了微调和训练所需的参数数量,引入了更大的参数冗余度。为了应对这些挑战,我们提出了一种基于参数灵敏度分配专家数量的方法——LoRA-SMoE(一种在LoRA-MoE中的灵敏度驱动专家分配方法,用于高效微调)。该方法通过采样少量数据并使用梯度信息快速评估不同任务对参数的灵敏度,然后在给定的预算内自适应分配专家数量。该过程保持了与LoRA(低秩适应)相当的内存消耗,同时确保高效的、资源友好的微调流程。实验结果表明,与当前最先进的微调方法相比,我们的LoRA-SMoE方法可以在减少可训练参数数量的同时提高模型性能。这在资源受限的环境中显著提高了模型性能。此外,由于其高效的参数灵敏度评估机制,LoRA-SMoE在优化专家分配方面的计算开销非常小,特别适用于计算资源有限的场景。本研究的所有代码将在论文被接受出版后公开。源代码位于https://github.com/EMLS-ICTCAS/LoRA-SMoE
发布时间: 5/13/2025
查看原文
作者: June-Woo Kim, Sanghoon Lee, Miika Toikkanen, Daehwan Hwang, Kyunghoon Kim
arXiv:2505.06271v1 声学诊断类型:交叉 摘要:听诊仍然是临床实践的核心,对于初次评估和连续监测都至关重要。医生通过结合患者的医疗历史和试验结果来听诊肺部声音并作出诊断。鉴于这一强烈的关联,多任务学习(MTL)可以提供一个令人信服的框架,同时建模这些关系,将呼吸音模式与疾病表现整合起来。尽管 MTL 在医疗应用中展现了巨大的潜力,但在理解呼吸音、疾病表现和患者元数据特征之间的复杂相互作用方面仍存在显著的研究缺口。本研究探讨了将 MTL 与最先进的深度学习架构相结合如何增强呼吸音分类和疾病诊断。具体而言,我们扩展了关于元数据对呼吸音分类有益影响的最新发现,评估其在 MTL 框架内的有效性。我们的全面实验表明,将听诊器信息纳入 MTL 架构中,可以显著提高肺音分类和诊断性能。
发布时间: 5/13/2025
查看原文
作者: Seongmin Kim, Kwanho Kim, Minseung Kim, Kanghyun Jo
arXiv:2505.06270v1 类型: cross 摘要:尽管深度学习模型因其深层次和复杂的架构而取得了非凡的成功,但这种复杂性通常会牺牲实时性能。为了解决这个问题,提出了多种模型压缩技术,其中知识蒸馏(KD)因其强大的经验表现而脱颖而出。KD 包含两个并发过程:(i) 匹配一个大型预训练教师网络和一个轻量级学生网络的输出,和(ii) 训练学生解决其指定的下游任务。相应的损失函数分别称为蒸馏损失和下游任务损失。大量前期研究表明,当蒸馏损失的影响超过下游任务损失时,KD 最为有效。影响(或重要性)通常通过一个平衡参数来调节。本文提供了一个数学依据,说明在简单KD设置中,当损失在减少时,平衡参数应该动态调整。
发布时间: 5/13/2025
查看原文
作者: Pengcheng Sun, Erwu Liu, Wei Ni, Kanglei Yu, Rui Wang, Abbas Jamalipour
arXiv:2505.06268v1 类型: cross 摘要:无线联邦学习(FL)的聚合效率和准确性受到资源限制的显著影响,尤其是在异构环境中,设备的数据分布和通信能力存在显著差异。本文提出了一种利用先验知识相似性进行分组的策略,将具有相似数据和通信特性的设备聚类,从而减轻异构性对性能的影响。在此基础上,提出了一种新的聚类感知多轮更新(CAMU)策略,将聚类视为基本单位,并根据聚类贡献阈值调整本地更新频率,有效减少了更新偏差并提高了聚合准确性。CAMU 策略的理论收敛性得到了严格验证。同时,基于收敛上界,联合优化每个聚类的本地更新频率和传输功率,在资源受限条件下实现计算和通信资源之间的最优平衡,显著提高了FL的收敛效率。实验结果表明,所提出的方法有效改善了FL在异构环境中的模型性能,并在资源有限的情况下实现了通信成本和计算负载之间的更好平衡。
发布时间: 5/13/2025
查看原文
arXiv:2505.06267v1 公告类型: cross 摘要:广域规模语言模型(LLMs)在代码生成中的广泛应用,以 GitHub Copilot(一个由代码 LLM 支撑的编码扩展,用于辅助代码补全任务)超过一百万用户为例,突显了这些工具在提高开发者生产力方面的变革潜力。然而,这种快速增长也突出了这些工具生成的代码在质量、安全性和可靠性方面的重要关切。随着代码 LLM 的发展,它们面临着显著的挑战,包括模型规模效益递减和高质量训练数据的稀缺性。为了解决这些问题,本文提出了对抗性知识蒸馏(AKD),这是一种新颖的方法,利用对抗生成的合成数据集将大型模型的能力提炼到更小、更高效的模型中。通过系统地压力测试和改进代码 LLM 的推理能力,AKD 提供了一个框架,用于增强模型的鲁棒性、可靠性和安全性,同时提高其参数效率。我们认为这项工作代表了确保在现有数据限制和模型执行的成本效益内实现可靠的自动化代码生成的关键步骤。
发布时间: 5/13/2025
查看原文
作者: Qi Cheng, Licheng Liu, Zhang Yao, Hong Mu, Shiyuan Luo, Zhenong Jin, Yiqun Xie, Xiaowei Jia
arXiv:2505.06266v1 Announce Type: cross 摘要:农业监测对于确保粮食安全、维持可持续的农业实践、制定减少粮食短缺的政策以及管理温室气体排放至关重要。传统的过程物理模型往往是为了特定情况而设计和实现的,其参数也可能非常不确定。相比之下,基于数据的模型通常采用黑盒结构,并不会显式地建模不同生态变量之间的相互依赖性。因此,它们需要大量的训练数据,并且在数据分布变化和观测变量不一致的情况下缺乏泛化能力。为满足更通用模型的需求,我们提出了一种知识引导的编码器-解码器模型。该模型通过利用来自多个物理模型的潜在过程知识来预测关键的作物变量。所提出的方法还集成了一个语言模型来处理复杂和不一致的输入,并利用其功能实施一个模型选择机制,以有选择地组合不同物理模型的知识。我们在多个站点预测碳和氮的通量方面的评估表明,在各种场景下,所提出的模型具有有效性和鲁棒性。
发布时间: 5/13/2025
查看原文
作者: Santhakumar Ramamoorthy, Priya Rani, James Mahon, Glenn Mathews, Shaun Cloherty, Mahdi Babaei
arXiv:2505.06264v1 宣告类型:交叉 摘要:谵妄是一种重要的临床关注问题,其特点是发病率和病死率高,尤其是在轻度认知障碍(MCI)患者中更为显著。本研究通过分析与MCI相关的共病模式,并利用机器学习方法开发纵向预测模型,来探讨谵妄的风险因素。利用MIMIC-IV v2.2数据库进行回顾性分析,评估共病状况、生存概率和预测建模结果。共病模式的检查识别出了MCI人群的独特风险图谱。Kaplan-Meier生存分析表明,与非MCI患者相比,发展为谵妄的MCI患者表现出显著较低的生存概率,突显了该群体的高脆弱性。在预测建模方面,利用时间序列数据、人口统计学变量、Charlson共病指数(CCI)评分和一系列共病状况,实施了长短期记忆(LSTM)机器学习网络。该模型展示了 robust 预测能力,AUROC为0.93,AUPRC为0.92。本研究强调了共病在评估谵妄风险中的关键作用,并指出时间序列预测建模在识别有较高谵妄发病风险的患者方面具有有效性。
发布时间: 5/13/2025
查看原文
作者: Zara Siddique, Liam D. Turner, Luis Espinosa-Anke
arXiv:2505.06262v1 交叉类型: 摘要: 我们介绍了Dialz,这是一种用Python实现的框架,用于推动开源LLM的引导向量研究。引导向量允许用户在推理时修改激活值,以增强或削弱某种“概念”,例如诚实或积极性,为预设或微调提供了更强大的替代方案。Dialz支持一系列任务,包括创建对比对数据集、计算和应用引导向量以及可视化。与现有库不同,Dialz强调模块化和易用性,既支持快速原型设计,也支持深入分析。我们展示了Dialz如何被用于减少有害输出,如刻板印象,同时也为不同层的模型行为提供了见解。我们发布了Dialz,附带完整的文档、教程和对流行开源模型的支持,以鼓励在安全可控的语言生成方面进行进一步研究。Dialz加快了研究周期,并促进了对模型可解释性的见解,为更安全、更透明和更可靠的AI系统的实现铺平了道路。
发布时间: 5/13/2025
查看原文
arXiv:2505.06261v1 宣布类型: cross 摘要:在新的强制劳动合规要求即将在2027年在欧盟(EU)实施的背景下,供应链企业面临着严格的工作时间管理要求和合规风险。为了科学地预测政策影响下的企业应对行为和绩效结果,本文构建了一个整合了AI合成数据生成机制和结构路径回归模型的方法学框架,以模拟在新规定下的企业战略转型路径。在研究方法上,本文采用基于蒙特卡洛机制和NIST合成数据标准生成的高质量模拟数据,构建了一个包含多元线性回归、逻辑回归、中介效应和调节效应的结构路径分析模型。变量系统涵盖了企业工作时间、合规投资、响应速度、自动化水平、政策依赖等14个指标。通过探索性数据分析(EDA)和多重共线性剔除(VIF),筛选出了具有解释力的变量集。研究结果表明,合规投资对企业生存具有显著的积极影响,这种影响是通过智能水平的中介路径传递的;同时,企业对欧盟市场的依赖显著调节了这种中介效应的强度。结论认为,结合结构路径建模的AI合成数据为高强度法规模拟提供了一个有效的工具,在缺乏真实情景数据的预预测阶段,可以为企业的战略应对、政策设计和AI辅助决策提供定量依据。关键词:AI合成数据,结构路径回归模型,合规应对策略,欧盟2027强制劳动法规
发布时间: 5/13/2025
查看原文
作者: Mattia Setzu, Riccardo Guidotti
arXiv:2505.06259v1 公平聚类类型:跨领域 摘要:由于集群方法在现实世界中的广泛应用,其公平性已成为主要关注点。公平聚类的理论结果表明,公平性具有传递性:给定一组小且公平的聚类,基于中心点的简单聚类算法可以产生公平的聚类。不幸的是,发现合适的初始聚类可能是计算上昂贵的、复杂的或任意的。 本文中,我们提出了基于 \emph{clusterlet} 的简单模糊聚类算法,这些算法可以匹配单一类别的聚类,并优化公平聚类。匹配利用了 clusterlet 距离,不仅优化了经典的聚类目标,还正则化了公平性。实验证明,简单的匹配策略能够实现高度的公平性,并且适当的参数调整能够实现高凝聚力和低重叠。
发布时间: 5/13/2025
查看原文