arXiv:2504.03600v1 类型: cross
摘要:医学图像和视频分割是精准医疗中的关键任务,在开发特定任务或模态和通用模型方面取得了显著进展,特别是在2D图像上。然而,对于3D图像和视频的通用模型构建,尤其是结合全面的用户研究,目前的研究非常有限。在此,我们介绍MedSAM2,这是一种用于3D图像和视频分割的可提示分割基础模型。该模型是通过对包含超过455,000个3D图像-掩模对和76,000帧的大型医疗数据集进行微调,最终将之前的模型在各种器官、病灶和成像模态中多方面超越。此外,我们实现了一个有人在回路的工作流程,以促进大规模数据集的创建,据我们所知,这是迄今为止最大的用户研究,涉及标注了5,000例CT病灶、3,984例肝MRI病灶和251,550帧心脏超声视频帧,证明MedSAM2可以降低人工成本超过85%。MedSAM2还被集成到广泛使用的平台中,并具有用户友好的界面,支持本地和云部署,使其成为在研究和医疗保健环境中支持高效、可扩展和高质量分割的实际工具。
arXiv:2504.03598v1 Announce Type: cross
摘要:现有的信息检索系统在目标文档的语言与用户查询语言匹配时表现出色。然而,实际的检索系统往往需要隐式地推断文档的相关性。例如,在检索技术文本或表格时,它们与用户查询的相关性可能通过特定的专业术语或结构暗示,而不仅仅是内容中明确表达。大型语言模型(LLMs)在通过利用其推理能力识别这种暗示的相关性方面具有巨大的潜力。然而,当前基于LLM的检索增强受到高延迟和计算成本的阻碍,因为LLM通常需要在线为每个查询重新计算查询文档的相关性。为了解决这一问题,我们引入了EnrichIndex,这是一种检索方法,它使用LLM在离线时通过一次处理检索语料库中的所有文档来构建语义增强的检索索引。此外,语义增强的索引可以补充现有的在线检索方法,提升LLM重新排名器的性能。我们在涉及段落和表格的五项检索任务上评估了EnrichIndex,并发现它在与强在线LLM检索系统相比时表现出色,在召回@10上平均提高了11.7个点,在NDCG@10上提高了10.6个点。从LLM的在线调用来看,它处理的词元数量减少了293.3倍,极大地减少了在线延迟和成本。总体而言,EnrichIndex通过利用LLM强大的推理能力,是一种有效的方法来构建更好的离线检索索引。
arXiv:2504.03597v1 宣传类型:跨领域
摘要:近年来,行为克隆的进步使机器人能够执行复杂的操作任务。然而,准确评估训练性能仍然具有挑战性,特别是在实际应用中,因为行为克隆损失与实际任务成功率的相关性往往较差。因此,研究人员不得不依靠成本高昂且耗时的实地评估中提取的成功率指标,这使得识别最优策略和检测过拟合或欠拟合变得不切实际。为了解决这些问题,我们提出了一种名为real-is-sim的新行为克隆框架,在整个策略开发流程中(包括数据收集、训练和部署)都采用了动态数字孪生(基于Embodied Gaussians)。通过持续使模拟世界与物理世界保持一致,可以从模拟器中提取状态并在现实世界中收集演示。模拟器通过从任何视角渲染图像输入或从场景中包含的实体中提取低级状态信息,提供了灵活的状态表示。在训练过程中,策略可以以离线和高度并行的方式在模拟器中直接进行评估。最后,在部署阶段,策略在模拟器中运行,现实中的机器人直接跟踪模拟机器人的关节,有效地解耦策略执行与实际硬件,缓解了传统的领域迁移难题。我们通过在PushT操作任务上验证real-is-sim,证明了模拟器中获得的成功率与实际世界评估之间存在很强的相关性。我们的系统视频可以在https://realissim.rai-inst.com找到。
arXiv:2504.03561v1 类型: cross
摘要: 在代理与环境的交互过程中,代理通过规划和执行行动来扩展其能力。然而,基于LLM的代理在部署于全新环境或需要导航非传统行动空间时会面临诸多挑战。为了使代理能够自主探索环境、优化工作流并增强其对行动的理解,我们提出了SynWorld框架,该框架允许代理在行动空间内合成可能的情景和多步行动调用,并通过蒙特卡洛树搜索(MCTS)探索有效地精确其当前环境中的行动知识。我们的实验表明,SynWorld是一种有效且通用的学习新环境行动知识的方法。相关代码可在https://github.com/zjunlp/SynWorld获取。
arXiv:2504.03553v1 声明类型: cross
摘要: 大型语言模型 (LLMs) 在各种代理规划任务中取得了显著的性能。然而,传统代理规划方法采用了一种“漫灌式”的方法,无区别地注入黄金轨迹、外部反馈和领域知识到代理模型中。这种做法忽视了决策过程中人类认知的基本原则——情境自我意识——即在决策过程中动态评估情境需求并战略性地使用资源的能力。我们提出了代理知识性自我意识来弥补这一空白,这是一种新颖的范式,使基于LLM的代理能够自主调节知识的使用。具体地,我们提出了KnowSelf,一种以数据为中心的方法,使代理具备类似人类的知识性自我意识。具体来说,我们设计了一种启发式的情况判断标准,在代理自我探索的轨迹中标记特殊标记符以收集训练数据。通过两阶段的训练过程,代理模型可以通过生成特定的特殊标记符在不同情境之间切换,从而以最小的成本实现最佳的规划效果。我们的实验表明,知悉本我(KnowSelf)可以在最小使用外部知识的情况下,超越不同的强基线模型和任务。代码可在 https://github.com/zjunlp/KnowSelf 获取。
arXiv:2504.03546v1 类型: cross
摘要: 多语言医疗语音翻译(ST)通过在语言障碍中实现高效的交流,缓解专业人力资源短缺,并在特别是在疫情期间,促进了诊断和治疗的改进。在本文中,我们提出了截至目前我们所知的第一个系统性医疗ST研究,通过发布MultiMed-ST,一个大规模医疗领域的ST数据集,该数据集涵盖了五个语言的所有翻译方向:越南语、英语、德语、法语、繁体中文和简体中文,以及相应的模型。数据集中包含290,000个样本,是我们所知的最大的医疗机器翻译(MT)数据集,也是所有领域中最大的多到多的多语言ST数据集。其次,我们呈现了迄今为止在ST研究中最广泛的研究分析,包括:经验对照基线、双语-多语对照研究、端到端与级联对照研究、任务特定与多任务序列到序列(seq2seq)对照研究、代码切换分析以及定量-定性错误分析。所有代码、数据和模型都可以在线获取:https://github.com/leduckhai/MultiMed-ST。
arXiv:2504.03531v1 交叉公告类型
摘要:心电图(ECG)监测装置是治疗和诊断心血管疾病(CVD)的重要但昂贵的设备。该设备的成本通常从2000美元到10000美元不等。多项研究已经在微控制器单元(MCU)中实现了ECG监测系统,以将工业开发成本降低多达20倍。然而,为了匹配工业级别的系统并有效显示心率,开发一个高效的房颤检测算法是必不可少的。因此,在本研究中,一个密集神经网络被开发出来,在Arduino Nano上检测房颤。Nano由带有16MHz时钟的ATMega328微控制器、2KB的SRAM和32KB的程序存储器组成。此外,使用AD8232 SparkFun 单导联心率监测器作为ECG传感器。实现的神经网络模型包括两层(不包括输入层),分别有10个和4个神经元,使用Sigmoid激活函数。然而,探索了四种方法来选择适当的激活函数。该模型的大小为1.267 KB,在分类四种类型的心律失常方面实现了宏平均F1分数为78.3%的分类性能,准确率为96.38%,需要0.001314 GLOPS(浮点运算)的运算。
arXiv:2504.03494v1 类型:交叉
摘要:制造和能源分配等领域中的计算物理系统(CPS)生成对于预测与健康管理(PHM)至关重要的复杂时间序列数据。虽然深度学习(DL)方法已经在预测能力上展示了强大的表现,但由于鲁棒性不足,其在工业CPS中的应用仍然有限。现有的鲁棒性评估主要集中在形式验证或对抗性扰动,未能充分代表实际工业CPS场景中遇到的复杂性。为了解决这一问题,我们提出了一种基于分布鲁棒性的实践鲁棒性定义,明确针对工业CPS,并提出了一个系统的鲁棒性评估框架。该框架模拟了现实中的干扰,如传感器漂移、噪声和不规则采样,从而对实际CPS数据集上的预测模型进行全面的鲁棒性分析。鲁棒性定义提供了一个标准化评分,用于量化和比较不同数据集上模型的性能,帮助进行明智的模型选择和架构设计。通过对包括递归、卷积、注意力机制、模块化以及结构化状态空间模型在内的主要DL架构进行广泛的实证研究,我们展示了我们方法的应用性和有效性。我们公开发布了鲁棒性基准,以鼓励进一步的研究和可再现性。
arXiv:2504.03490v1 Announce Type: cross
摘要:超分辨率(SR)技术对于增强图像质量至关重要,特别是在硬件限制导致高分辨率图像稀缺的情况下尤为重要。现有的SR扩散模型主要依赖高斯模型来生成噪声,但在处理自然场景中复杂多变的纹理时常常表现不佳。为了解决这些问题,我们引入了贝叶斯不确定性引导扩散概率模型(BUFF)。BUFF通过引入贝叶斯网络生成高分辨率不确定性掩码来区分自身。这些掩码指导扩散过程,允许以上下文感知和自适应的方式调整噪声强度。这种新颖的方法不仅提升了超分辨率图像的准确性,使其更接近原始高分辨率图像,还显著减少了复杂纹理和细节点所在区域的伪影和模糊。该模型展示了对复杂噪声模式的出色鲁棒性,并展示了在处理图像中的纹理和边缘方面具有更高的适应性。支持视觉结果的实验证据表明,特别是在具有挑战性的场景中,模型的鲁棒性,以及其在处理常见的SR问题(如模糊)方面的能力。在DIV2K数据集上的实验评估显示,BUFF在BSD100上的SSIM上取得了显著提升,相比于基线增加了0.61,平均额外增加0.20dB的PSNR性能。这些发现强调了贝叶斯方法在增强SR中的扩散过程中的潜力,并为未来该领域的进步铺平了道路。
arXiv:2504.03486v1 交叉发布类型:cross
摘要:自动化法律文件起草可以显著提高效率、减少人工努力并简化法律工作流程。虽然之前的研究所探讨了诸如判决预测和案例摘要等任务,但印度法律领域中的私人性质法律文件的结构化生成仍然很大程度上未得到解决。为了解决这一问题,我们引入了VidhikDastaavej,一个新颖的匿名私人性质法律文件数据集,并开发了NyayaShilp,一种专门适应印度法律文本的微调法律文件生成模型。我们提出了一种模型无关的包装器(MAW),这是一种两步框架,首先生成结构化的节标题,然后迭代生成内容并利用检索机制确保连贯性和事实准确性。我们对多个开源LLM进行了基准测试,包括指令微调和领域适应版本,以及proprietary模型进行比较。我们的研究表明,虽然在小数据集上直接微调并不总是能够提高效果,但我们的结构化包装器可以显著提高连贯性、事实准确性,并提高整体文件质量,同时减轻幻觉。为了确保实际应用,我们开发了一个有人参与的循环(HITL)文档生成系统,这是一种互动用户界面,允许用户指定文档类型、细化节详细信息并生成结构化的法律草稿。该工具使法律专业人士和研究人员能够高效地生成、验证和改进AI生成的法律文件。广泛的评估,包括专家评估,确认我们的框架在结构化法律起草中具有高度可靠性。这项研究为印度的AI辅助法律起草奠定了可扩展和可适应的基础,提供了一种有效的结构化法律文件生成方法。