arXiv:2502.10559v1 Announce Type: cross
摘要:通过MRI准确评估软骨的形态学特征,如厚度/体积,对于监测膝骨关节炎至关重要。软骨分割仍然是一个具有挑战性的问题,依赖于大量的专家注释数据集,这些数据集受到阅读者间变异性的严重影响。最近视觉基础模型(VFM)的进步,特别是基于记忆的方法,为提高通用性和鲁棒性提供了机会。本研究提出了一种深度学习(DL)方法,利用交互式、基于记忆的视觉基础模型从3D MRI中进行软骨和半月板分割。为了提高空间意识和收敛性,我们在训练过程中引入了混合洗牌策略(HSS),并应用了分割掩模传播技术以增强注释效率。我们在270名患者的3D膝关节MRI上训练了四种AI模型——基于CNN的3D-VNet、两个自动变压器模型(SaMRI2D和SaMRI3D),以及一个基于变压器的可提示记忆型视觉基础模型(SAMRI-2)。我们使用公共和内部数据集进行训练,并在57个外部病例上进行评估,这些病例包括多放射科医生注释和不同的数据采集方式。使用Dice分数(DSC)和交集与并集比(IoU)对模型性能进行了评估,并通过额外的形态学评估进一步量化分割准确性。具有HSS训练的SAMRI-2模型表现优于所有其他模型,平均DSC提高了5分,对于胫骨软骨的最大改进达到12分。此外,它还展示了最低的软骨厚度误差,减少了一至三倍的差异。值得注意的是,SAMRI-2在每次体积仅需三下用户点击的情况下仍能保持高性能,减少了注释工作量同时确保了解剖精度。这种具有空间意识的记忆型视觉基础模型为可靠的AI辅助膝关节MRI分割提供了一种新颖的方法,在肌肉骨骼成像中推进了深度学习技术。
arXiv:2502.10552v1 宣布类型:交叉
摘要:在这项工作中,我们调查了动态信息释放机制,即所谓的“掩码”,以最小化随机系统向外部观察者的信息泄漏。具体来说,对于一个随机系统,观察者旨在推断系统轨迹的最终状态是否属于一组秘密状态。动态掩码寻求调节传感器信息,以最大化观察者对最终状态的不确定性,这一特性称为最终状态不透明性。尽管现有动态掩码的监督控制文献主要侧重于定性不透明性,但我们提出通过条件熵来量化随机系统中的不透明性,因为条件熵是信息安全中的信息泄漏度量。然后,我们制定了一种约束优化问题,以在总遮蔽成本约束下合成最大化最终状态不透明性的动态掩码。为解决这一约束最优动态掩码合成问题,我们开发了一种新颖的原始对偶策略梯度方法。此外,我们提出了一种技术,通过利用隐藏马尔可夫模型中的可观测算子来计算策略参数对条件熵梯度。为了证明我们方法的有效性,我们将我们的方法应用于示例性场景和随机网格世界场景,展示了如何在成本约束下通过算法最优地实施最终状态不透明性。
arXiv:2502.10550v1 通知类型: 交叉
摘要:记忆对于使智能体能够处理具有时间依赖性和空间依赖性的复杂任务至关重要。虽然许多强化学习(RL)算法都包含了记忆组件,但领域中缺少一个通用的标准基准,用于评估智能体的记忆能力跨越多种场景。在桌面机器人操作中,这个差距尤为明显,记忆对于解决部分可观测任务和确保稳健性能至关重要,但目前还没有标准化的基准。为了解决这一问题,我们引入了MIKASA(Memory-Intensive Skills Assessment Suite for Agents),这是一个全面的内存增强RL基准,包含三个关键贡献:(1)我们提出了一种全面的分类框架,用于定义内存密集型RL任务;(2)我们收集了MIKASA-Base - 一个统一的基准,能够系统地评价增强记忆的智能体在各种场景中的表现;(3)我们开发了MIKASA-Robo - 一个包含32个精心设计的内存密集型任务的基准,用于评估桌面机器人操作中智能体的记忆能力。我们的贡献建立了一个统一的框架,推动了内存增强RL研究的发展,促进了更可靠的系统在实际应用中的发展。相关代码可在https://sites.google.com/view/memorybenchrobots/获得。
arXiv:2502.10546v1 Announce Type: cross
摘要:对于来自视觉和机器人学等领域中的具有挑战性的状态估计问题,基于粒子的方法吸引性地允许多模式后验的时序推理。粒子平滑器通过在时间上双向传播信息提供了更准确的离线数据分析的潜力,但传统上需要人工设计的动力学和观测模型。在此基础上,我们扩展了基于判别训练的粒子滤波器的最新成果,开发了一个框架,用于在训练粒子平滑器时在长时间序列上进行低方差梯度传播。我们的“两步法”平滑器结合了向前和向后传播的粒子流,在重采样步骤中引入分层和重要性加权,为神经动力学和观测模型提供低方差梯度估计。由此得到的混合密度粒子平滑器对于从现实世界视频和地图进行城市规模的全局车辆定位,相比最新的粒子滤波器以及基于搜索的基线方法,具有显著更高的准确性。
arXiv:2502.10536v1 交叉类型公告
摘要:对病理切片病例的解释是医学中许多重要诊断和治疗决策的基础。值得注意的是,这一过程通常要求病理学家在每个病例中整合和总结多个切片上的发现。目前计算病理学中的视觉-语言能力主要局限于感兴趣的较小区域、低放大倍数下的较大区域,或单个全切片图像(WSI)。这限制了跨越多个WSI的高倍率区域上的发现的解释。通过利用Gemini 1.5 Flash,一种具有100万令牌上下文窗口的大规模多模态模型(LMM),我们展示了从多达40,000张768x768像素的图像片段中生成最终诊断的能力,这些图像来自10倍放大倍数的多个WSI。这相当于最多11小时以1 fps的速度播放的视频。专家病理学家评估表明,生成的报告文本在临床准确性上是准确的,并且在68%(95%置信区间:[60%,76%])的包含最多5张切片的多切片示例中,优于或与原始报告相当。尽管对于包含6张或更多张切片的示例,性能有所下降,但这项研究证明了利用现代LMM的长上下文能力,特别是在包含数千个图像片段的独特挑战性任务中生成医疗报告方面的潜力。
arXiv:2502.10526v1 宣告类型: cross
摘要: 时间预测模型有可能改善医疗保健、公共服务和其他领域的决策,但它们往往未能有效地支持决策者。以往的研究表明,模型行为与决策者期望之间的许多不一致性源于模型规格问题,即预测是在何时以及为谁做出的。然而,预测任务中的模型规格高度技术化,难以让非数据科学家的利益相关者进行解读和批判。为了应对这一挑战,我们开发了 Tempo,一个互动系统,帮助数据科学家和领域专家协作改进模型规格。通过 Tempo 的简单而精确的时间查询语言,数据科学家可以快速构建规格原型,并提高预处理选择的透明度。此外,领域专家可以在数据子群体中评估模型性能,以验证模型是否按预期行为。通过三个案例研究,我们展示了 Tempo 如何帮助跨学科团队快速排除不可行的规格并确定更有前景的研究方向。
arXiv:2502.10517v1 交叉类型:跨领域
摘要:高效的GPU内核对于构建高性能的机器学习架构至关重要,但编写它们是一项耗时的挑战,需要大量的专业知识;因此,我们探索使用语言模型(LMs)来自动化内核生成。我们介绍了KernelBench,这是一个开源框架,用于评估LMs在250个精心选择的PyTorch机器学习工作负载上的能力,以编写快速且正确的内核。KernelBench代表了一个实际的工程环境,通过对引入的基准的改进可以直接转化为更快的实际内核。我们引入了一个新的评估指标fast_p,该指标衡量生成内核中功能正确且比基线快于可调整阈值p的百分比。我们在各种最先进的模型和测试时间方法上进行的实验显示,前沿推理模型在一开始表现最佳,但总体上仍然不尽如人意,在不到20%的情况下能够匹配PyTorch基线。尽管我们展示了通过在迭代细化过程中利用执行和剖析反馈可以提高结果,但KernelBench仍然是一个具有挑战性的基准,随着加速阈值p的提高,其难度也会增加。
arXiv:2502.10497v1 类型: cross
摘要: 近期在生成式人工智能方面的进展显著提高了自然语言处理(NLP)系统的效率和适应性,特别通过检索增强生成(RAG)、低秩适应(LoRA)和权重分解低秩适应(DoRA)。RAG 结合外部知识以增强生成输出的事实一致性,而 LoRA 使得大规模语言模型(LLMs)的参数高效 fine-tuning 成为可能。DoRA 进一步通过自适应参数排名和领域意识的权重调整优化 fine-tuning 过程,从而提高学习效率同时保持推理性能。
本文展示了 RAG、LoRA 和 DoRA 的大规模实证评估,模型 fine-tuning 和生成性能在 20,000 个基于 FAQ 的查询上进行评估,而知识库涵盖 400,000 条记录。该研究分析了诸如准确性、相关性和推理延迟等关键性能指标。实验结果表明,DoRA 在准确性(90.1%)、相关性评分(0.88)和最低延迟(每查询 110 毫秒)方面表现出色,在现实世界的领域特定生成式 AI 应用中超越了 LoRA 和 RAG。
此外,该研究还探讨了在不同模型中 fine-tuning 效率、计算成本和实时适应性之间的权衡。研究结果强调了 RAG 在知识落地方面的有效性、LoRA 在高效领域适应方面的成本效益,以及 DoRA 在平衡 fine-tuning 效率和模型精度方面的能力。这些见解为在诸如医疗服务、金融和法律服务等高精度领域部署以 AI 驱动的生成系统提供了实用指导,确保在动态环境中实现可扩展性、可靠性和最佳性能。
arXiv:2502.10495v1 公告类型: cross
摘要:在图像生成快速发展的背景下,潜在扩散模型(LDMs)已成为强大的工具,能够创造出高度逼真的图像。然而,这种进步引发了重大的版权侵权和生成内容潜在滥用方面的担忧。当前用于LDMs的水印技术往往会在生成的图像中嵌入常量信号,这损害了其隐蔽性,使恶意攻击者能够检测到这些水印。本文介绍了一种新颖的方法——SWA-LDM,通过随机化嵌入过程来增强水印,有效地消除了可检测模式,同时保持图像质量和鲁棒性。我们提出的水印存在攻击揭示了现有基于潜在空间的水印方法的内在脆弱性,展示了这些方法如何容易被暴露。通过全面的实验,我们验证了SWA-LDM不仅增强了水印的隐蔽性,还保持了在水印鲁棒性和视觉保真度方面的竞争性性能。这项工作代表了朝着保护LDM生成图像免受未经授权使用迈进的关键一步,确保在数字图像真实性至关重要的时代,版权保护和内容完整性得到保障。
arXiv:2502.10491v1 公告类型:交叉
摘要:尽管音乐仍然是生成模型(如变换器)的一个具有挑战性的领域,但通过利用合适的音乐启发先验知识,最近取得了进展。一种在变换器中利用音乐结构信息的技术是将此类知识插入到位置编码(PE)模块中。然而,变换器在序列长度上的成本是二次的。在这篇论文中,我们提出了一种结构导向的PE方案F-StrIPE,其工作在线性复杂度下。借助基于随机特征的现有核近似技术,我们表明F-StrIPE是随机位置编码(SPE)的一个推广。我们使用符号音乐的旋律配 harmony 来说明F-StrIPE的实证优势。