arXiv:2505.02486v1 类型: cross
摘要: 多模态连续指令调整 (MCIT) 的目标是使多模态大型语言模型 (MLLMs) 能够在不发生灾难性遗忘的情况下逐步学习新任务。在本文中,我们探讨了在这种情况下发生的遗忘,并将其分为表面遗忘和本质遗忘。表面遗忘是指模型的知识实际上并未真正丢失,但由于后续任务答案风格的影响,其对先前任务的响应偏离了预期格式,使得结果不可用。相比之下,本质遗忘是指模型提供了格式正确但事实不准确的答案,这表明知识的真实丢失。评估本质遗忘的前提是首先解决表面遗忘,因为严重的表面遗忘可能会掩盖模型的知识状态。因此,我们首先引入了答案风格多样化 (ASD) 原理,该原理定义了一种标准化的数据样式转换过程,将不同任务的训练集统一成类似的多样化风格,以防止由风格转换引起的表面遗忘。在此基础上,我们提出了 RegLoRA 来缓解本质遗忘。RegLoRA 通过应用正则化稳定主要存储先前知识的关键参数,从而使模型能够保留现有的技能。实验结果表明,我们整体方法 SEFE 达到了最先进的性能。
arXiv:2505.02485v1 类别: cross
摘要: 公交司机排班问题(BDSP)是一个组合优化问题,目标是设计班次以覆盖预先安排的巴士旅游。目标不仅考虑运营成本,还考虑司机的满意程度。由于严格的法律法规和集体协议,该问题受到了严格的约束。本文的目标是提供最先进的精确和混合解决方案方法,以提供不同规模实例的高质量解决方案。本文提出了对一种精确方法(分支定价,B&P)以及一种大型邻域搜索(LNS)框架的研究,该框架在修复阶段使用B&P或列生成(CG)来解决BDSP。文中还提出并评估了一种新的B&P和LNS更深的集成方法,存储LNS子问题生成的列,用于其他子问题的修复,或者找到更好的全局解。文章对解决方案方法的多个组成部分及其影响进行了详细分析,包括对B&P子问题的一般改进,该子问题是高维资源受限最短路径问题(RCSPP),以及LNS的组成部分。评估结果显示,我们的方法为所有规模的实例提供了新的最先进的结果,包括小型实例的精确解,以及中期实例与已知下限的低差距。结论:我们发现B&P在小型实例中提供了最好的结果,而LNS与CG紧密结合可以为较大规模的实例提供高质量的解决方案,进一步改进了仅将CG作为黑箱使用的LNS。提出的解决方案方法具有普遍性,也可以应用于其他规则集和相关优化问题。
arXiv:2505.02483v1 交叉公告类型
摘要:使具有高自由度的机器人学习特定技能是一个具有挑战性的工作,因为机器人动力学的复杂性。强化学习(RL)已经出现为一种有希望的解决方案;然而,解决这些问题需要设计多个奖励函数以考虑机器人运动中的各种限制。现有方法通常会不加区别的将所有奖励组件相加来优化RL的价值函数和策略。我们认为,所有奖励组件在策略优化中的统一纳入是低效的,并限制了机器人的学习性能。为此,我们提出了一种基于大型语言模型(LLMs)的自动混合奖励调度(AHRS)框架。该范式在整个策略优化过程中动态调整每个奖励组件的学习强度,使机器人能够逐步且结构化地获得技能。具体来说,我们设计了一个多分支价值网络,每一分支对应一个独特的奖励组件。在策略优化过程中,给每个分支分配一个反映其重要性的权重,这些权重是由LLMs根据所设计的规则自动计算得出的。LLMs提前根据任务描述生成一套规则,并在训练过程中根据语言提示从库中选择一个权重计算规则,以评估每个分支的性能。实验结果表明,AHRS方法在多个高自由度机器人任务中平均实现了6.48%的性能提升。
arXiv:2505.02467v1 多模态类型: cross
摘要: 多模态深度学习利用多种成像模态(如 MRI 序列)来增强医学影像诊断的准确性。一个关键挑战是如何确定最佳的多模态集成时机,特别是如何识别出应在网络的哪些层插入融合模块。当前的方法通常依赖手动调优或穷举搜索,这些方法在计算上可能是昂贵的,但无法保证能够寻找到最优配置。我们提出了一种逐步前向搜索算法,该算法逐步激活并评估不同网络层中的候选融合模块。在每一步中,算法从之前学习到的权重重新训练,并通过比较验证损失来确定表现最佳的配置。这个过程系统地减少了搜索空间,从而能够在无需穷尽测试所有可能模块放置的情况下,高效地识别出最佳的融合时机。该方法在两个不同的多模态 MRI 数据集上进行了验证,每个数据集都针对不同的分类任务。我们的算法在所有测试中都一致地识别出了优于单模态基准、晚期融合以及穷尽所有潜在融合放置的暴力组合的配置。这些架构展示了更出色的准确率、F分数和特异性,同时保持了竞争或改进的 AUC 值。此外,搜索的逐级性质显著减少了计算开销,使优化过程更为实际。通过系统地确定最佳融合时机,我们的方法推动了多模态深度学习在医学影像中的应用。该方法提供了一个高效且稳健的融合优化框架,为提高临床决策质量和在医学AI应用中开发更具适应性和可扩展性的架构铺平了道路。
arXiv:2505.02435v1 交叉公告类型:counterfactual
摘要:反事实解释通过识别产生不同输出的替代输入来增强可解释性,提供对模型决策的局部洞察。然而,传统方法往往忽视了因果关系,导致不切实际的例子。尽管新的方法集成了因果关系,但它们在计算上代价高昂。为了应对这些挑战,我们提出了一种基于反向追踪反事实的方法,该方法结合因果推理以生成可操作的解释。我们首先探讨了现有方法的限制,然后介绍了我们的创新方法及其特性。我们还探讨了我们的方法与先前技术之间的关系,证明了它在特定场景下概括了它们。最后,实验显示,我们的方法能够提供对模型输出的更深层次的洞察。
arXiv:2505.02433v1 宣告类型: cross
摘要:我们提出了FairPO,这是一种新型框架,旨在通过从群体稳健性的视角直接优化偏好信号来促进多标签分类中的公平性。在我们的框架中,标签集被划分为特权和非特权群体,并采用受直接偏好优化(DPO)启发的基于偏好的损失函数,以更有效地在特权群体中区分真实正标签与混淆的负标签,同时保持非特权标签的基础分类性能。通过将学习问题视为群体上的稳健优化问题,我们的方法动态调整训练重点,朝向表现较差的群体,从而减轻偏差并确保在多样化的标签类别中得到更加公平的对待。此外,我们计划通过研究替代的损失形式,例如简单偏好优化(SimPO)和对比偏好优化(CPO),来利用参考无关的奖励形式和对比训练信号来扩展这种方法。此外,我们计划扩展FairPO以具备多标签生成能力,使模型能够动态地为模糊输入生成多样且连贯的标签集。
arXiv:2505.02426v1 宣告类型: cross
摘要:一次-shot 模拟联邦学习能够在单轮中实现协作训练,消除了迭代通信的需要,使其特别适合资源受限和隐私敏感的应用。这篇综述对一次-shot 模拟联邦学习进行了全面的考察,强调了其与传统联邦学习方法不同的操作框架。一次-shot 模拟联邦学习通过支持单轮模型聚合并保持数据本地性,为资源有限的设备提供了支持。综述系统地分类了现有方法,强调了在客户端模型初始化、聚合技术以及管理异构数据分布方面的进展。此外,我们分析了当前方法的局限性,特别是在非IID设置下的可扩展性和泛化能力。通过分析前沿技术并概述开放挑战,这篇综述旨在为致力于设计和实现一次-shot 模拟联邦学习系统的研究人员和实践者提供一个全面的参考,推动一次-shot 模拟联邦学习解决方案在真实世界的资源受限场景中的发展和应用。
arXiv:2505.02417v1 交叉类型
摘要:文本生成时间序列具有解决数据稀疏性、不平衡以及跨领域时间序列数据集获取有限等挑战的巨大潜力。尽管扩散模型在文本到X(例如,视觉和音频数据)生成方面取得了显著成功,但它们在时间序列生成中的应用仍处于初级阶段。现有方法面临两个关键制约:(1)缺少对一般提出的时序描述的系统性探索,这些描述往往是领域特定的,并且在泛化方面存在问题;(2)无法生成任意长度的时间序列,限制了其在实际场景中的应用。本文首先将时间序列描述分为三个层次:点级、片段级和实例级。此外,我们引入了一个新的片段级数据集,包含超过60万个高分辨率的时间序列-文本对。其次,我们提出了一种基于扩散的框架Text-to-Series(T2S),该框架以领域无关的方式将自然语言与时间序列联系起来。T2S 使用一种自适应长度的变分自编码器将不同长度的时间序列编码为一致的潜在嵌入。此外,T2S 通过使用 Flow Matching 和采用扩散变换器作为去噪器来有效地将文本表示与潜在嵌入对齐。我们在多个长度上交替训练T2S,使其能够生成任何所需长度的序列。广泛评估表明,T2S 在12个领域的13个数据集上达到了最先进的性能。
arXiv:2505.02410v1 Announce Type: cross
摘要:我们介绍了Bielik 11B v2,这是一个针对波兰文本处理优化的最先进的语言模型。该模型基于Mistral 7B v0.2架构,并通过深度扩展扩展到11B参数,展示了在波兰语言基准测试中的出色性能,同时保持较强的跨语言能力。我们引入了两项关键技术创新:加权指令交叉熵损失,通过根据训练样例的质量分配权重来优化不同指令类型的跨学习;自适应学习率,可以根据上下文长度动态调整。在多个基准测试中的全面评估表明,Bielik 11B v2在性能上超过了包括参数多2-6倍的许多更大模型,并在从语言理解到复杂推理等各种任务中显著超过了其他专门针对波兰语言的模型。模型的参数效率和广泛的量化选项使其能够适应各种硬件配置,推动了波兰语言AI能力的发展,并为资源高效的语言建模设立了新的标准,特别是在代表性较弱的语言中。
arXiv:2505.02396v1 宣告类型: cross
摘要: 肺炎诊断虽然对于有效的治疗至关重要,但它可能会受到不确定性的影响。这种不确定性始于一些因素,如非典型表现、诊断工具(例如胸部X光)的局限性,以及共存的呼吸道疾病。这项研究提出了一种监督学习方法——CNN。使用已经预训练的MobileNetV2模型和带有ResNet101V2架构的Scratch模型,以识别肺部疾病,特别是肺炎。这些研究中使用的数据集是从Kaggle网站获取的。结果显示,在实施MobileNetV2和从头开始的CNN模型后,结果是有前景的。在验证数据时,MobileNetV2表现出稳定性和最小的过拟合,而训练精度从84.87%增加到后来的78.95%,验证损失从0.499增加到0.6345。尽管如此,MobileNetV2更加稳定。虽然每轮训练所需时间较长。与此同时,在第10轮之后,已从头开始的模型显示出了更多的不稳定性和过拟合,尽管验证精度较高,训练精度显著下降到78.12%,验证损失增加到1.1809。从这些结果来看,ResNet101V2提供了稳定性,而从头开始的模型提供了高度的准确性。