arXiv:2505.01288v2 宣告类型: replace-cross
摘要:机器人获得复杂操作技能的主要挑战之一是大规模收集机器人示范的高昂成本。相比之下,人类能够通过观察他人与环境互动而高效学习。为了弥合这一差距,我们提出了语义动作流作为核心中间表示,它可以捕获基本的空间-时间操作-物体交互,且不受表面视觉差异的影响。我们提出了ViSA-Flow框架,该框架通过从未经标记的大规模视频数据中自监督学习来获得这种表示。首先,一个生成模型在自动从大规模人-物体交互视频数据中提取的语义动作流上进行预训练,学习操作结构的稳健先验。其次,通过将先验适应目标机器人,通过对通过相同语义抽象管道处理的小规模机器人示范进行微调来高效适应。通过在CALVIN基准和实际任务上进行广泛的实验,我们证明ViSA-Flow在低数据情况下达到了最先进的性能,与以前的方法相比,它通过有效地将人类视频观察的知识转移到机器人执行中来取得优异表现。有关视频,请参见 https://visaflow-web.github.io/ViSAFLOW。
arXiv:2505.00308v2 宣告类型:替换交叉
摘要:目的:本文提出了一种基于深度学习(DL)的质量评估(QA)方法,用于评估放射治疗中的自动生成边界(auto-contours),尤其关注在线自适应放射治疗(OART)。利用贝叶斯序数分类(BOC)和校准的不确定性阈值,该方法能够在无需依赖真实边界或大量手动标注的情况下进行自信的QA预测。方法:我们开发了一个BOC模型来分类auto-contour的质量并量化预测不确定性。使用了一步校准步骤来优化满足临床准确性要求的不确定性阈值。该方法在三种数据场景下进行了验证:无手动标签、有限标签和大量标签。对于前列腺癌的直肠边界,当没有手动标签时,我们使用几何替代标签;当标签有限时,使用迁移学习;当标签充足时,使用直接监督。结果:BOC模型在所有场景下均表现出稳健的性能。仅用30个手动标签微调,并用34个主题进行校准,测试数据的准确率超过90%。使用校准的阈值,在超过98%的情况下准确预测了超过93%的auto-contours的质量,从而减少了不必要的手动审查,并突出了需要修正的案例。结论:提出的QA模型通过减少手动工作量和实现快速、有根据的临床决策,提高了OART的轮廓绘制效率。通过不确定性量化,确保了更安全、更可靠的放疗工作流程。
arXiv:2505.00024v2 宣传类型: 替换交叉
摘要:使大型语言模型能够使用外部工具已成为扩展其功能到文本空间之外的一项关键策略。为了增强LLMs的调用工具能力,以往的方法主要依赖于强模型蒸馏的监督微调(SFT),通常导致模仿推理,从而限制了泛化能力。在本文中,我们探索基于规则的强化学习,以增强LLMs的工具调用能力,从而形成了Nemotron-Research-Tool-N1这一系列工具调用推理模型。而不是在中间蒸馏的推理轨迹上施加监督,Tool-N1模型通过仅评估工具调用的格式有效性与功能正确性的二元RL奖励进行训练。这种轻量级的监督允许模型独立地开发推理策略,无需依赖注释的轨迹。在几个主要基准上的实验表明,Tool-N1-7B/14B明显优于GPT-4o。我们系统地研究了训练工具调用模型的基于规则的强化学习策略设计。使用5,518个蒸馏的推理轨迹,我们将SFT、RL以及SFT-然后-RL流水线进行比较,发现广泛采用的SFT-然后-RL范式并不一定优于纯RL。
arXiv:2504.21476v2 宣告类型: replace-cross
摘要:服装裁剪模式是连接设计概念和实际制造的基本设计元素。生成裁剪模式的建模对于创造多样化服装至关重要。然而,现有方法要么依赖单一输入模态,要么生成效率欠佳。在本文中,我们提出了GarmentDiffusion,这是一种新型生成模型,能够从多模态输入(文本、图像和不完整的裁剪模式)生成厘米级精确的矢量3D裁剪模式。我们的方法高效地将3D裁剪模式参数编码为紧凑的边代币表示,将序列长度缩短至DressCode中自回归SewingGPT的十分之一。通过使用扩散变换器,我们沿时间轴同时去除所有边代币的噪声,同时保持去噪步骤数不变,不受数据集特定边缘和面板统计学的影响。通过我们模型所有设计组合,裁剪模式生成速度比SewingGPT快100倍。我们在DressCodeData和最大的裁剪模式数据集GarmentCodeData上均实现了新的最佳性能结果。项目网站可在https://shenfu-research.github.io/Garment-Diffusion/访问。
arXiv:2504.21415v2 宣告类型: replace-cross
摘要:用户认证是确保计算机系统安全访问的关键,但传统的认证方法在易用性、成本和安全性方面存在局限性。基于对用户在鼠标设备上自然交互行为的分析,鼠标动态认证提供了一种经济、非侵入性和可适应的解决方案。然而,确定最优数据量、平衡准确性和实用性以及有效捕捉时间行为模式仍然存在挑战。在本研究中,我们提出了一种使用高斯核密度估计(KDE)和Kullback-Leibler(KL)散度的统计方法,以估计用于训练认证模型的充足数据量。我们引入了鼠标的认证单元(MAU),利用近似熵(ApEn)优化段长度,以实现高效的准确行为表示。此外,我们设计了局部时间鼠标认证(LT-AMouse)框架,结合了一维卷积残差网络(1D-ResNet)进行局部特征提取,以及长短期记忆网络(GRU)建模长期时间依赖性。以Balabit和DFL数据集为例,我们显著减少了数据规模,特别是在DFL数据集上减少了10倍的数据量,极大地减轻了训练负担。另外,我们根据不同数据集确定了用户认证系统中输入识别单元长度的最佳值,基于近似熵的斜率。使用不平衡样本训练时,我们的模型在DFL数据集上的盲攻击AUC为98.52%,在Balabit数据集上的AUC为94.65%,超越了当前的最佳性能。
arXiv:2504.20834v3 Announce Type: replace-cross
摘要:我们提出了一种针对在严格内存和计算限制下大型语言模型(LLMs)推理的强化学习(RL)策略,特别注重与LoRA微调的兼容性。基于早期的策略梯度方法并去除基线减法,我们设计了一种无需评论家的方法,该方法操作于一小部分具有信息性的输出token,以减少内存使用并稳定训练。我们引入了S-GRPO,这是一种分组相对策略优化的随机变体,并引入了T-SPMO,这是一种基于token级别的前缀匹配方法,用于精细的信用分配。应用到Qwen2-1.5B上,我们的方法在SVAMP基准上从46%的准确率提高到超过70%,并在多位数乘法上表现出强劲性能。令人惊讶的是,LoRA下的全token GRPO未能超过基模型,这表明选择性的token级别优化可能在低参数训练环境中起到隐式的正则化作用。
arXiv:2504.20055v2 宣告类型: 替换-交叉
摘要:教育领域中复杂机器学习模型的使用越来越多,这引发了对其可解释性的担忧,进而促进了开发既忠实于模型内部运作又易于人类终端用户理解的解释技术的需求。在本文中,我们描述了一种通过设计使其具有可解释性的基于神经网络的行为检测模型的新方法。我们的模型是完全可解释的,这意味着我们提取用于解释的参数具有明确的解释意义,完全捕捉了模型关于感兴趣学习者行为的知识,并可用于创建既忠实又易于理解的解释。我们通过实施一系列简化模型推理过程并使其更接近于人类对任务的认知的概念,实现了这一点。我们训练模型以检测系统作弊行为,评估其在该任务上的性能,并将其学习模式与其人类专家识别的模式进行比较。我们的结果显示,模型成功地学会了指示系统作弊行为的模式,同时提供了完全可解释的证据。我们讨论了我们方法的含义,并提出了使用基于人类的方法评估解释性的方式。
arXiv:2504.19339v2 报告类型: replace-cross
摘要: 科学文档的文摘通常包含解释,以帮助读者理解复杂的概念或论证。然而,当前的自动摘要方法并未明确建模这些解释,这使得难以使解释内容的比例与人类撰写的摘要相匹配。在本文中,我们提出了一种基于计划的方法,利用话语框架组织摘要生成,并通过提示针对计划的响应来引导解释性句子。具体而言,我们提出两种基于话语的计划策略,其中计划作为输入的一部分或输出前缀的一部分进行条件化。在三个文摘数据集上的实证实验表明,我们的方法在摘要质量方面优于现有最先进的方法,并增强了模型的鲁棒性、可控性和减轻了幻觉问题。
arXiv:2504.17058v3 宣布类型: replace-cross
摘要:在机器学习研究中,生成高质量的合成数据面临着重大挑战,尤其是在统计保真度和不确定性量化方面。现有的生成模型能够产生令人信服的合成样本,但在其与底层数据分布的关系上缺乏严格的统计保证,限制了它们在需要稳健误差边界的关键领域的应用。我们通过提出一种新框架来弥补这一基本限制,该框架将一致预测方法整合到生成对抗网络(GAN)中。通过整合多种一致预测范式,包括归纳一致预测(ICP)、Mondrian一致预测、交叉一致预测和VENN-ABERS预测器,我们建立了生成样本中无分布的不确定性量化。这种方法称为一致化GAN(cGAN),既展示了增强的校准特性,又保持了传统GAN的生成能力,生成具有可证明统计保证的合成数据。我们提供了严格的数学证明,确立了有限样本有效性保证和渐近效率特性,从而能够在包括医疗保健、金融和自主系统在内的高风险领域可靠地应用合成数据。
arXiv:2504.17040v2 宣告类型: 替换交叉
摘要:我们提出了一种名为DyMU的有效且无需训练的框架,该框架能够动态减少视觉语言模型(VLMs)的计算负担,同时保持高水平的任务性能。我们的方法包含两个关键组件。首先,动态令牌合并(DToMe)通过基于图像复杂度合并相似的令牌来减少视觉令牌嵌入的数量,从而解决视觉变压器固有的固定长度输出的低效性。其次,虚拟令牌反合并(VTU)通过高效地重建完整序列的注意力动态来模拟大型语言模型(LLMs)的预期令牌序列,从而在无需额外微调的情况下保持下游性能。与以往的方法不同,我们的方法动态地根据图像内容调整令牌压缩,并完全无需训练,使其能够轻松应用于大多数最先进的VLM架构。在图像和视频理解任务上的广泛实验表明,DyMU可以在减少32%-85%的平均视觉令牌计数的同时,实现与全长模型相当的性能,涵盖包括最近流行的AnyRes基视觉编码器在内的多种VLM架构。此外,通过定性分析,我们证明了DToMe能够根据图像复杂度有效地调整令牌减少,并且与现有系统不同,为用户提供更多控制计算成本的选项。项目页面:https://mikewangwzhl.github.io/dymu/。