arXiv:2504.11284v1 类型: cross
摘要:二部排名是一个基本的监督学习问题,其目标是学习一个排名,以在与单一二元目标标签的最大受控接收者操作特征曲线面积(AUC)下进行排名。然而,人们经常观察到多个二元目标标签,例如来自不同的人类标注者。如何将这些标签综合成一个一致的排名?在本文中,我们通过分析这两种方法的贝叶斯最优解来正式分析这个问题——损失聚合和标签聚合。基于此,我们展示了虽然这两种方法都可以产生帕累托最优解,但损失聚合可能会表现出标签独裁:可能会无意中(且不受欢迎地)偏好一个标签而忽视其他标签。这表明标签聚合可能优于损失聚合,我们在实验中证实了这一点。
arXiv:2504.11268v1 Announce Type: cross
摘要:模型合并是一种灵活且计算上可实现的方法,用于将单任务检查点合并到多任务模型中。先前的工作仅专注于单任务到单任务映射的受约束多任务设置,忽视了多任务可能在同一样本上操作的情况,例如场景理解。在本文中,我们关注单一输入-多个输出(SIMO)的多任务设置,并表明它在特征表示重新对齐方面与文献中研究的单一输入-单一输出模型合并设置存在质的区别,这是由于任务特定的解码器和多样化的损失目标的存在。我们发现现有的模型合并方法会导致显著的性能下降,主要是由于合并后的编码器与任务特定解码器之间的表示不对齐。我们提出了两种简单且高效的SIMO设置修正方法,以在合并后重新对齐特征表示。与联合微调相比,我们的方法在计算效率和灵活性方面更为有效,并从线下方式上揭示了任务关系。在NYUv2、Cityscapes以及Taskonomy数据集的一部分上进行的实验表明:(1) 任务算术足以实现多任务能力;然而,合并后的编码器生成的表示必须与任务特定的头部重新对齐;(2) 所提出的架构在性能上与传统的多任务学习相当,但通过利用任务特定模型的存在,可以减少所需的样本数量和训练步骤。
arXiv:2504.11264v1 宣传类型:交叉
摘要:电子健康记录(EHRs)的迅速积累已经通过提供增强临床预测和诊断的价值数据,彻底改变了医疗保健。虽然传统的机器学习模型已经证明了其有效性,但它们通常缺乏 robust 的表示学习,并且高度依赖于专家设计的特征。尽管深度学习提供了强大的解决方案,但它经常因为缺乏可解释性而受到批评。为了解决这些挑战,我们提出了一种名为 DeepSelective 的新型端到端深度学习框架,用于使用 EHR 数据预测患者预后,并且特别强调提高模型的可解释性。DeepSelective 结合了数据压缩技术与一项创新的特征选择方法,集成了一种定制设计的模块,这些模块共同工作以提高准确性和可解释性。我们的实验表明,DeepSelective 不仅提高了预测准确性,还显著改善了可解释性,使其成为临床决策的重要工具。源代码可在 http://www.healthinformaticslab.org/supp/resources.php 免费获取。
arXiv:2504.11250v1 资源分配类型: 横向研究
摘要:资源分配在最小化循环时间和提高业务流程效率方面发挥着关键作用。最近,深度强化学习(DRL)已经 emerged 作为一种强大的工具,用于优化业务流程中的资源分配策略。在 DRL 框架中,智能体通过与环境的交互来学习策略,仅通过指示其决策质量的奖励信号进行引导。然而,现有的算法不适合动态环境,如业务流程。此外,现有的 DRL 基方法依赖于近似目标的工程化奖励函数,但如果奖励和目标之间存在错位,则可能导致不希望的决策或次优策略。为了应对这些问题,我们提出了一种基于展开的 DRL 算法和一个可以直接优化目标的奖励函数。我们的算法通过评估不同行动后的执行轨迹来逐步改进策略。我们的奖励函数直接将最小化平均循环时间的目标函数分解。最大化我们的奖励函数可以确保在不需要大量奖励工程的情况下最小化目标函数。结果显示,我们的方法在所有六个评估的业务流程中一致地学习到最优策略,而最先进的算法只能在两个评估的业务流程中学习到最优策略。
arXiv:2504.11246v1 Announce Type: 横跨领域
摘要:哮喘是一种影响全世界数百万人的慢性呼吸系统疾病。尽管可以通过手持吸入器给药控制器药物来管理这种疾病,但临床研究表明,患者正确使用吸入器技术的依从性较低。因此,许多患者可能无法获得全部药物疗效。近年来,已经研究了吸入器声音的自动化分类以评估药物依从性。然而,现有的分类模型通常是在特定类型的吸入器数据上进行训练的,它们在将声音从不同类型的吸入器泛化到其他类型的能力尚未得到探索。在本研究中,我们通过在吸入器声音上进行预训练和微调,将 wav2vec 2.0 自监督学习模型应用于吸入器声音分类。所提出的模型在使用干粉吸入器和智能手表设备收集的数据集上显示出了98%的平衡准确率。研究结果还表明,针对目标吸入器少量数据重新微调此模型是将通用吸入器声音分类模型适应到不同吸入器设备和音频捕获硬件的有前景的方法。这是领域内的首项研究,证明了智能手表作为机器学习模型用于个性化监测吸入器依从性的辅助技术的可能性。
arXiv:2504.11245v1 影响最大化类型: 横向
摘要:在时间图中的影响最大化(IM)关注于识别对网络扩展至关重要的“种子节点”。我们主张通过影响传播路径(IPP)来定义这些种子节点,这对于扩展网络规模至关重要。我们的重点在于高效地标记IPP并准确预测这些种子节点,同时解决时间网络中常见的冷启动问题。我们的策略引入了一种基于模式的标记方法,并为多关系时间图量身定制了张量化的时空图网络(TGN),这有助于提高预测准确性和计算效率。此外,我们通过历史数据中具有相似IPP的新邻居来增强冷启动节点。在在线团队游戏环境中,推荐系统对社会网络的影响较为微妙,形成了多关系(即弱关系和强关系)的时间图,为我们的情感IM研究提供了依据。我们进行了离线实验以评估预测准确性和模型训练效率,并通过在线A/B测试验证实际网络增长的有效性以及解决冷启动问题的有效性。
arXiv:2504.11216v1 宣布类型: cross
摘要:联邦学习(FL)使在分布式数据上进行机器学习模型的去中心化训练成为可能,同时保护隐私。然而,在实际的联邦学习设置中,客户端数据往往是非同分布且不均衡的,导致统计数据异质性,这影响了服务端模型在客户端之间的泛化能力,减缓了收敛速度并降低了性能。在本文中,我们通过首先提出一种使用6个指标来表征全局和客户端属性偏差、类别偏差以及虚假相关性的统计数据异质性特征,来解决这一挑战。接下来,我们创建并分享了7个计算机视觉数据集,用于联邦学习中的二分类和多分类图像分类任务,这些数据集涵盖了广泛的统计数据异质性,从而模拟真实世界的情况。最后,我们提出了FedDiverse,这是一种新颖的联邦学习客户端选择算法,旨在通过促进具有互补数据分布的客户端之间的协作来管理和利用客户端之间的数据异质性。在七个提出的联邦学习数据集上的实验表明,FedDiverse 在提高各种联邦学习方法的性能和鲁棒性方面非常有效,同时具有较低的通信和计算开销。
arXiv:2504.11197v1 交叉类型
摘要:小型语言模型(SLMs)支持在资源受限的边缘设备上进行高效的部署,但它们有限的能力会损害推理性能。检索增强生成(RAG)通过将外部数据库集成进来,提供了一种增强模型性能的有前途的解决方案,而无需对设备上的模型进行密集的重新训练。然而,大规模的公共数据库和用户特定的私人上下文文档通常位于云和设备上,而现有的RAG实现主要集中在中心化上。为了弥合这一差距,我们提出了DRAGON,一个分布式RAG框架,通过结合通用和个性化的知识来增强设备上的SLMs,而不会泄露文档隐私。具体而言,DRAGON将多文档RAG分解为在云和设备上独立且并行执行的多个标记生成过程,并采用一种新设计的推测性聚合算法,以避免云和设备之间的频繁输出同步。还引入了一种新的调度算法,基于实时网络条件来识别最优的聚合侧。在实际硬件测试平台上对DRAGON的评估显示,与中心化的RAG相比,DRAGON带来了显著的性能提升——相对独立的SLMs可提高多达1.9倍,每标记延迟显著降低,且初始标记时间(TTFT)开销几乎可以忽略不计。
arXiv:2504.11186v1 宣告类型: 交叉
摘要: 最近在逻辑推理方面取得进展的大型语言模型(LLMs)标志着从通用LLMs向针对复杂决策设计的模型的转变,这是医学领域的一个关键方面。然而,它们在眼科学等专门领域的表现尚未得到充分探索。本研究全面评估并比较了四种新开发的逻辑推理导向的LLMs的准确性和推理能力,具体包括DeepSeek-R1、OpenAI o1、o3-mini和Gemini 2.0 Flash-Thinking。每种模型使用MedMCQA数据集中的5,888个多项选择眼科学考试问题进行了零样本评估。定量评估包括准确率、宏F1和五个文本生成指标(ROUGE-L、METEOR、BERTScore、BARTScore和AlignScore),并与真实推理进行比较。记录了100个随机选择的问题的平均推理时间。此外,两位认证的眼科专家对其对鉴别诊断问题的回答的清晰性、完整性和推理结构进行了定性评估。O3-mini (0.902) 和 DeepSeek-R1 (0.888) 达到了最高的准确率,O3-mini 在宏F1 (0.900) 上领先。模型在文本生成指标上的表现各异:O3-mini 在 ROUGE-L (0.151) 上表现出色,o1 在 METEOR (0.232) 上表现出色,DeepSeek-R1 和 O3-mini 在 BERTScore (0.673) 上并列领先,DeepSeek-R1 (-4.105) 和 Gemini 2.0 Flash-Thinking (-4.127) 在 BARTScore 上表现最佳,而 O3-mini (0.181) 和 o1 (0.176) 在 AlignScore 上领先。这些模型的推理时间有所不同,DeepSeek-R1 最慢(40.4 秒),Gemini 2.0 Flash-Thinking 最快(6.7 秒)。定性评估表明,DeepSeek-R1 和 Gemini 2.0 Flash-Thinking 倾向于提供详细的和全面的中间推理,而 o1 和 O3-mini 则展示了简洁和总结化的理由。
arXiv:2504.11182v1 安全类型: cross
摘要:将大型语言模型(LLMs)与推荐系统(RecSys)融合极大地提升了个性化推荐,并引起了广泛的关注。尽管取得了显著的进步,基于LLM的RecSys在后门攻击下的安全性仍被大量忽视。在本文中,我们提出了一个新问题:是否可以在基于LLM的RecSys中注入一个特定的后门,使得在项目标题附加该后门触发器时,可以操控推荐响应?为了考察基于LLM的RecSys在面对后门攻击时的脆弱性,我们提出了一种新的攻击框架,称为推荐系统后门注入(BadRec)。BadRec通过在项目的标题中添加触发器并使用多个虚假用户与这些项目进行交互,有效地污染了训练集并将后门注入到了基于LLM的RecSys中。全面的实验表明,只需污染1%的训练数据,使用对抗样本即可成功植入后门,从而操控推荐。为了进一步缓解这种安全威胁,我们提出了一种通用防御策略,称为毒药扫描器(P-Scanner)。具体而言,我们引入了一种基于LLM的毒药扫描器,利用LLM强大的语言理解和丰富知识来检测被污染的项目。我们使用一个触发器增强代理生成多样化的合成触发器,以指导毒药扫描器学习被污染项目检测任务的领域特定知识。在三个真实世界数据集上的广泛实验验证了所提出的P-Scanner的有效性。