arXiv:2409.14456v1 公告类型: 新提交 摘要: 使用最大似然估计 (MLE) 训练的概率回归模型有时会过度估计方差至不可接受的程度。这在多元领域尤为突出。虽然单变量模型通常优化流行的连续排名概率评分 (CRPS),但在多元领域,尚未有类似 MLE 的替代方法被广泛接受。能量评分——最常研究的替代方案——以其缺乏封闭形式表达式和对目标变量间相关性的敏感性而著称。本文提出条件 CRPS:一种扩展 CRPS 的多元严格适当评分规则。我们证明,对于流行的分布,存在封闭形式表达式,并展示其对相关性的敏感性。随后,我们在合成数据和真实数据的各种实验中展示,条件 CRPS 通常优于 MLE,并产生与分布随机森林 (DRF) 等最先进的非参数模型相当的结果。
可微分架构搜索(DARTS)作为一种有效的神经架构搜索技术,近年来崭露头角。其主要包含两个步骤来寻找高性能架构:首先,通过梯度下降优化由混合操作组成的DARTS超网;其次,通过选择对超网贡献最大的操作来构建最终架构。尽管DARTS提高了NAS的效率,但它存在一个众所周知的退化问题,可能导致架构性能下降。现有研究主要将退化问题归因于超网优化的失败,而对选择方法的关注较少。本文中,我们不再采用广泛使用的基于幅度的选择方法,而是提出了一种基于操作强度的新标准,通过操作对最终损失的影响来估计其重要性。我们表明,通过使用所提出的标准,可以有效解决退化问题,而无需修改超网优化,这表明基于幅度的选择方法可能是DARTS不稳定性的关键原因。在NAS-Bench-201和DARTS搜索空间上的实验证明了我们方法的有效性。
arXiv:2409.14393v1 公告类型: 新提交 摘要: 打造一个单一、多功能的基于物理的控制器,能够在广泛场景中赋予交互角色生命,代表了角色动画领域的一个激动人心的前沿。理想的控制器应支持多种控制模式,如稀疏目标关键帧、文本指令和场景信息。尽管先前的工作提出了基于物理模拟、场景感知的控制模型,但这些系统主要专注于开发各自专长于狭窄任务和控制模式的控制器。本文提出了MaskedMimic,一种将基于物理的角色控制表述为通用运动修复问题的新方法。我们的关键见解是训练一个单一的统一模型,从部分(掩码)运动描述中合成运动,如掩码关键帧、对象、文本描述或其任意组合。通过利用运动跟踪数据并设计一种可扩展的训练方法,我们能够有效利用多样化的运动描述生成连贯的动画。通过这一过程,我们的方法学习了一个基于物理的控制器,提供了一个直观的控制界面,无需为所有感兴趣的行为进行繁琐的奖励工程。最终的控制器支持广泛的控制模式,并实现不同任务之间的无缝过渡。通过将角色控制统一为运动修复,MaskedMimic创造了多功能的虚拟角色。这些角色能够动态适应复杂场景,并按需组合多样化的运动,从而实现更互动和沉浸的体验。
arXiv:2409.14377v1 公告类型: 新文章 摘要: 强大的预测性人工智能系统在增强人类决策方面展示了巨大的潜力。最近的经验研究表明,实现最佳人机协作的愿景需要人类对人工智能系统的“适当依赖”。然而,准确估计人工智能建议在实例层面的可信度非常具有挑战性,尤其是在缺乏与人工智能系统相关的性能反馈的情况下。实际上,机器学习模型在分布外数据上的性能差异使得基于数据集的性能反馈在人机协作中变得不可靠。受现有关于批判性思维和批判性心态文献的启发,我们提出将调试人工智能系统作为一种干预措施,以促进适当的依赖。本文探讨了在调试环境中对人工智能性能进行批判性评估是否能更好地校准用户对人工智能系统的评估,并促成更适当的依赖。通过一项定量实证研究(N = 234),我们发现我们提出的调试干预措施并未如预期那样促进适当的依赖。相反,我们观察到干预后对人工智能系统的依赖度下降——这可能是由于早期暴露了人工智能系统的弱点。我们探讨了用户信心和用户对人工智能可信度的估计在不同性能水平群体中的动态变化,以帮助解释不适当依赖模式的发生。我们的研究结果对设计有效的干预措施以促进适当的依赖和更好的人机协作具有重要意义。
arXiv:2409.14363v1 公告类型:新 摘要:现有的模型生成算法依赖于简单、不灵活的适配器选择来提供个性化结果。我们提出模型-适配器组合问题作为过去工作的广义问题,考虑了实际硬件和可负担性约束,并引入MANTA作为解决该问题的新方法。在COCO 2014验证集上的实验表明,MANTA在图像任务多样性和质量上表现优异,尽管在一致性上略有下降。我们的系统在任务多样性上取得了94%的胜率,在任务质量上取得了80%的胜率,优于已知的最佳系统,并展示了在合成数据生成和创意艺术领域直接应用的强大潜力。
恶意URL分类是网络安全的一个重要方面。尽管现有工作包括许多基于机器学习和深度学习的URL分类模型,但大多数模型由于缺乏代表性的训练数据集而存在泛化和领域适应问题。此外,这些模型无法为给定的URL分类提供自然语言的解释。在这项工作中,我们研究并展示了使用大型语言模型(LLMs)来解决这一问题。具体来说,我们提出了一种基于LLM的一次性学习框架,该框架使用思维链(Chain-of-Thought, CoT)推理来预测给定的URL是良性还是钓鱼。我们使用三个URL数据集和五个最先进的LLM评估了我们的框架,并表明一次性LLM提示确实提供了接近监督模型的性能,其中GPT 4-Turbo表现最佳,其次是Claude 3 Opus。我们对LLM解释进行了定量分析,并表明大多数LLM提供的解释与监督分类器的后验解释一致,并且这些解释具有高可读性、连贯性和信息量。
基于深度学习模型在心血管结构分割领域的成功,越来越多的关注集中在提高泛化性和鲁棒性上,特别是在标注数据量较小的情况下。尽管近期有所进展,但当前方法仍面临过拟合和精度限制等挑战,主要原因是它们依赖于大规模数据集和狭窄的优化技术。本文介绍了UU-Mamba模型,它是U-Mamba架构的扩展,旨在解决心脏和血管分割中的这些挑战。通过整合锐度感知最小化(SAM),该模型通过瞄准损失景观中的平坦最小值来增强泛化能力。此外,我们提出了一种不确定性感知的损失函数,该函数结合了基于区域、基于分布和基于像素的组件,通过捕捉局部和全局特征来提高分割精度。尽管UU-Mamba模型已经展示了出色的性能,但仍需进一步测试以全面评估其泛化性和鲁棒性。我们通过在ImageCAS(冠状动脉)和Aorta(主动脉分支和区域)数据集上进行新试验来扩展评估,这些数据集比我们之前工作中使用的ACDC数据集(左心室和右心室)提出了更复杂的分割挑战,展示了模型的适应性和韧性。我们确认UU-Mamba在性能上优于TransUNet、Swin-Unet、nnUNet和nnFormer等领先模型。此外,我们通过广泛的实验提供了对模型鲁棒性和分割精度的更全面评估。
我们提出了Habitat-Matterport 3D开放词汇对象目标导航数据集(HM3D-OVON),这是一个大规模基准,扩展了先前对象目标导航(ObjectNav)基准的范围和语义范围。利用HM3DSem数据集,HM3D-OVON包含了来自真实世界环境的逼真3D扫描中超过15,000个家庭对象的注释实例,涵盖379个不同类别。与早期将目标对象限制在预定义的6-20个类别中的ObjectNav数据集不同,HM3D-OVON支持在测试时通过自由形式语言定义开放目标集的模型训练和评估。通过这种开放词汇表的表述,HM3D-OVON推动了学习视觉语义导航行为的发展,这些行为能够以开放词汇表的方式搜索文本指定的任何对象。此外,我们系统地评估和比较了几种不同类型的方法在HM3D-OVON上的表现。我们发现,HM3D-OVON可以用于训练一个开放词汇表的ObjectNav代理,该代理在性能上不仅更高,而且对定位和执行噪声更具鲁棒性,优于当前最先进的ObjectNav方法。我们希望我们的基准和基线结果将激发对开发能够通过自由形式语言导航真实世界空间以寻找家庭对象的具身代理的兴趣,朝着更灵活和类人化的语义视觉导航迈出一步。代码和视频可在以下网址获取:naoki.io/ovon。
大型多模态模型在视觉和语言任务中展示了令人印象深刻的问题解决能力,并具有编码广泛世界知识的潜力。然而,这些模型在现实环境中感知、推理、规划和行动的能力仍然是一个开放的挑战。在这项工作中,我们引入了Can-Do,一个基准数据集,旨在通过比以往数据集更多样化和复杂的场景来评估具身规划能力。我们的数据集包括400个多模态样本,每个样本由自然语言用户指令、描绘环境的视觉图像、状态变化和相应的行动计划组成。数据涵盖了常识知识、物理理解和安全意识的多个方面。我们的细粒度分析揭示了包括GPT-4V在内的最先进模型在视觉感知、理解和推理能力方面面临的瓶颈。为了应对这些挑战,我们提出了NeuroGround,一个神经符号框架,首先将计划生成基于感知到的环境状态,然后利用符号规划引擎来增强模型生成的计划。实验结果表明,与强大的基线相比,我们的框架具有更高的有效性。我们的代码和数据集可在https://embodied-planning.github.io获取。
arXiv:2409.14231v1 公告类型: 新 摘要: 冠心病影响着全球数百万人的健康,是医疗领域中一个备受关注的研究领域。虽然有许多可行且准确的诊断和预测心脏病的方法,但它们存在一些局限性,如侵入性、检测延迟或成本高昂。通过机器学习算法的监督学习提供了一种低成本(从计算角度)、非侵入性的解决方案,可以作为早期诊断的前奏。在本研究中,我们应用了几种著名的方法,并将其性能相互比较。结果发现,通过预测变量的过采样,随机森林算法达到了最高的准确率,达到84%。