arXiv:2504.14699v1 Announce Type: 跨领域
摘要:脊柱手术是一项高风险的干预措施,需要精确执行,通常需要基于图像的导航系统支持。最近,监督学习方法引起了注意,用于从稀疏的透视X光数据重建3D脊柱解剖结构,显著减少了对辐射密集型3D成像系统的依赖。然而,这些方法通常需要大量标注的训练数据,并且在处理不同患者解剖结构或成像条件时可能会遇到困难。如高斯点云采样这样的实例学习方法可以通过避免广泛的标注要求来提供替代方案。虽然高斯点云采样在新颖视角合成方面显示出潜力,但将其应用于稀疏的、任意摆姿势的操作X光片仍然鲜有研究。本工作通过扩展 $R^2$ 高斯点云采样框架,在这些具有挑战性的条件下重建解剖上一致的3D体积来弥补这一不足。我们引入了一种基于解剖结构的放射标准化步骤,使用样式迁移提高各视角之间的视觉一致性,从而提高重建质量。值得注意的是,我们的框架不需要预训练,使其能够自然地适应新的患者和解剖结构。我们使用体外数据集评估了我们的方法。专家外科评估证实了在使用20到30个视角时,这些3D重建在导航方面的临床应用价值,并强调了标准化对解剖清晰度的好处。通过量化2D指标(PSNR/SSIM)进行基准测试,证实了与理想设置相比存在的性能折衷,但也验证了当标准与原始输入相比有所改进。本工作展示了从任意稀疏视角X光片进行实例基的体积重建的可行性,从而推动了手术导航中的术中3D成像技术的发展。
arXiv:2504.14694v1 宣告类型: cross
摘要:多方学习(FL)允许多个客户端协同训练一个全局模型,同时保持本地数据去中心化。客户端之间数据异质性(非IID)给FL带来了重大挑战,这使得本地模型重新优化以适应自己的本地最优解,而忘记全局知识,导致性能下降和收敛速度减慢。现有许多研究尝试通过在本地训练中添加额外的基于全局模型的正则化项来解决非IID问题,但没有提出适应方案,这在使用深度学习模型时效率不够高以达到高性能。在本文中,我们提出了一种针对多方学习的Selective Self-Distillation方法(FedSSD),该方法通过对全局模型知识进行自我蒸馏并在评估类和样本层次的可信度后对其选择性加权来在本地更新上施加自适应约束。FedSSD 的收敛性保证在理论上进行了分析,并在三个公开基准数据集上进行了广泛实验,结果表明,与现有的其他最先进的FL方法相比,FedSSD 在更少的通信轮次中实现了更好的泛化能力和鲁棒性。
arXiv:2504.14693v1 交叉类型:multimodal
摘要:近期在视频领域语言多模态模型(LMMs)的进步展示了其理解视频内容的潜力,但在多学科讲座的理解任务上仍有许多未探索的空间。我们介绍了Video-MMLU,这是一个大规模基准,旨在评估LMMs在理解多学科讲座方面的能力。我们评估了超过90个开源和专用模型,参数范围从0.5B到40B。我们的结果突显了当前模型在应对这些讲座提出的精神挑战方面的局限性,尤其是在需要感知和推理结合的任务中。此外,我们探讨了视觉标记的数量和大规模语言模型如何影响性能,为我们提供了关于多模态感知和推理在讲座理解中相互作用的见解。
arXiv:2504.14690v1 Announce Type: cross
摘要:对于资源丰富的语言如英语来说,对大型语言模型(LLMs)进行评估和分析的研究已经非常广泛,然而对于波斯语等语言的性能则受到了相对较少的关注。本文介绍了FarsEval-PKBETS基准,这是FarsEval项目的一个子集,用于评估波斯语中的大型语言模型。该基准包括4000个采用各种格式的问题和答案,包括多项选择题、简答题和描述性回答。它涵盖了广泛的领域和任务,包括医学、法律、宗教、波斯语、百科知识、人类偏好、社会知识、伦理和偏见、文本生成以及尊重他人的权利。该基准结合了与波斯语和伊朗相关的语言学、文化和地方性考虑。为了确保这些问题能够对当前的LLMs构成挑战性,使用了三个模型——Llama3-70B、PersianMind和Dorna——进行了评估。这些模型的平均准确率低于50%,意味着它们能完全正确回答的问题不到总数的一半。这些结果表明,当前的语言模型仍然远远不能解决这个基准任务。
arXiv:2504.14686v1 宣告类型: cross
摘要:移动网络运营商 (MNOs) 管理着多代无线接入网络(2G-5G)中的大量蜂窝。为了应对这种复杂性,运营团队依赖监测系统,包括用于检测异常行为的异常检测工具。在本文中,我们介绍了基于图神经网络(GNNs)的 RAN 基于上下文的异常检测监控 c-ANEMON。我们的解决方案通过分析单个蜂窝与其局部邻域的行为关系来捕捉时空变化,从而能够检测出与外部移动因素无关的异常。这反过来又使得能够专注于与网络问题相关的异常(例如,配置错误、设备故障)。我们使用来自一个大型欧洲大都市区的真实数据(7890 个蜂窝;3 个月)对 c-ANEMON 进行了评估。首先,我们展示了我们解决方案中的 GNN 模型有效泛化到未见过的区域中的蜂窝,这表明可以使用单一模型在广泛的部署区域内。然后,我们通过人工检查分析 c-ANEMON 检测到的异常,并定义了几类持续时间较长的异常(6 小时及以上)。值得注意的是,这些异常中有 45.95% 属于一个更可能需要运营团队干预的类别。
arXiv:2504.14681v1 Announce Type: 跨域
摘要:现有的基于大语言模型的大规模多智能体框架主要局限于数字或模拟环境,并且局限于狭窄的知识领域,限制了其在需要对物理体进行设计、跨学科整合及约束意识推理的复杂工程任务中的应用。本研究提出了一种多智能体自主机电设计框架,该框架集成了机械设计、优化、电子学和软件工程方面的专业知识,以最少的直接人类设计输入自主生成功能原型。该框架主要通过语言驱动的工作流进行操作,并通过结构化的人类反馈来确保在现实世界约束下的稳健性能。为了验证其能力,该框架应用于涉及自主水质监测和采样的真实世界挑战,传统方法耗时且生态破坏性大。利用提出的方法系统,开发了一艘功能齐全的自主船舶,具有优化的动力装置、成本效益高的电子设备和先进的控制系统。设计过程由专门的智能体负责,包括一个负责问题抽象的高层次规划智能体和负责结构、电子、控制和软件开发的专业智能体。这种方法展示了基于大语言模型的多智能体系统在自动化现实世界工程工作流和减少对广泛领域专业知识依赖方面的潜力。
arXiv:2504.14677v1 交叉公告类型:时间序列基础模型
摘要:时间序列基础模型在各种时间序列预测任务中表现出色,但它们通过增量学习持续改进的能力尚未得到探索。我们首次全面研究了这些模型的时间可塑性——它们在不断学习以逐步提高性能的同时,维持现有能力的能力。通过在表现出分布变化的实际数据集上进行实验,我们使用新的持续学习框架评估了传统深度学习模型和基础模型。研究结果表明,虽然传统模型在增量微调过程中面临性能下降的问题,但像Time-MoE和Chronos这样的基础模型展示了预测准确性的持续提升。这暗示优化基础模型的增量微调策略可能比开发特定领域的小型模型更为有价值。我们的研究引入了评估具有稳健持续学习能力的基础时间序列模型的新方法和见解。
arXiv:2504.14657v1 交叉公告类型: cross
摘要: 合成电子健康记录 (EHRs) 提供了一种宝贵的机会,可以创建隐私保护和协调的结构化数据,支持医疗保健中的众多应用。合成数据的关键优势包括对数据模式的精确控制、对患者人群更具公平性和代表性的表示能力,以及能够在不担心泄露真实个体隐私的情况下分享数据集。因此,AI 社区越来越多地转向大型语言模型 (LLMs) 在各个领域生成合成数据。然而,在医疗保健领域的一个重要挑战是确保合成健康记录能够在不同医院之间可靠地泛化,这是一个长期存在的问题。在这项工作中,我们评估了当前商业 LLMs 生成合成数据的状态,并调查了生成过程的多个方面,以识别这些模型的强项和弱点所在。我们在这项工作中的主要发现是,虽然 LLMs 可以可靠地为较小的特征子集生成合成健康记录,但在数据维度增加时,它们在保持真实分布和相关性的方面存在困难,最终限制了它们在不同医院环境中泛化的能力。
arXiv:2504.14645v1 宣告类型: cross
摘要: 我们采用了一种进化的优化框架,通过扰动初始状态来生成具有信息性和多样性的策略演示。通过结合局部多样性、行为确定性和全局种群多样性,联合元训练适应度函数指导优化。为了评估演示的质量,我们应用了一系列评估指标,包括基于奖励的最优性差距、中位数四分位误差(IQMs)、适应度组成分析和轨迹可视化。还检查了超参数的敏感性,以更好地理解轨迹优化的动力学。研究结果表明,通过元训练适应度指标优化轨迹选择,显著提高了在离散和连续环境中的RL策略的可解释性。在网格世界的领域中,评估表明与随机和删除基线相比,演示的忠实性有显著增强。在连续控制中,提出的框架为早期策略提供了有价值的见解,而基于忠实性的优化对成熟策略更为有效。通过对元训练适应度函数进行精细和系统性的分析,本研究推进了RL模型的可解释性。提出的改进为RL决策提供了更深入的见解,有利于安全关键和可解释性重点关注领域的应用。
arXiv:2504.14640v1 宣布类型: cross
摘要: 先验训练范式在大型语言模型 (LLMs) 的成功中扮演着关键角色,这些模型被认为是最近 AI 领域最重要的进步之一。在这些突破的基础上,具有高级编码能力的代码 LLMs 对软件工程产生了巨大影响,显示出成为开发人员日常工作不可或缺的一部分的趋势。然而,当前的代码 LLMs 仍然面临信任方面的一些严重挑战,因为它们可以生成不正确、不安全或不可靠的代码。最近的探索性研究表明,通过分析 LLMs 的内部状态来检测此类风险输出是可行的,类似于人类大脑无意识地识别自己的错误。然而,大多数这些方法都局限于 LLM 操作的狭窄子领域,并且无法实现行业级别的可扩展性和实用性。为了解决这些挑战,本文提出了一种名为 PtTrust 的两阶段风险评估框架,该框架基于内部状态先验训练设计,旨在与软件公司的现有基础设施无缝集成。核心思想是,风险评估框架也可以经历一个类似于 LLMs 的先验训练过程。具体来说,PtTrust 首先在大规模未标记源代码上进行无监督先验训练,以学习 LLM 状态的一般表示。然后,它使用一个较小的标记数据集来训练一个风险预测器。我们通过细粒度的、代码行级别的风险评估展示了 PtTrust 的有效性,并证明了它在不同的任务和编程语言中具有泛化能力。进一步的实验还表明,PtTrust 提供了高度直观和可解释的特征,增强了用户信任。我们相信,PtTrust 向代码 LLMs 的可扩展和值得信赖的保障迈出了一步。