arXiv:2504.19863v1 宣传类型: cross
摘要:分析乒乓球运动员的技术需要了解球的3D轨迹和旋转。虽然标准广播视频中旋转是不可直接观察到的,但我们可以从视频中的球的轨迹中推断出旋转。我们提出了一种新方法,可以从视频中的相应2D轨迹中推断出初始旋转和3D轨迹。由于我们输入数据表示的选择、物理上正确的合成训练数据以及使用有针对性的数据增强,网络自然地泛化到真实数据。值得注意的是,仅使用这些简单技术即可实现泛化。在训练过程中根本不需要真实数据。据我们所知,这是我们第一次提出一种方法来预测简单单目广播视频中的旋转和轨迹,在旋转分类方面准确率为92.0%,2D再投影误差为图像对角线的0.19%。
arXiv:2504.19854v1 Announce Type: cross
摘要:现有的视觉-语言-行动(VLA)模型在零样本场景中展示了令人鼓舞的性能,展示了出色的任务执行和推理能力。然而,视觉编码的局限性带来了重大挑战,这在对象抓取等任务中会导致失败。此外,这些模型通常由于其庞大的规模而遭受计算开销过高的问题,参数量往往超过70亿。虽然这些模型在推理和任务规划方面表现出色,但它们带来的显著计算开销使其在实时机器人环境中不可行,而实时环境对速度和效率的要求极高。为了克服现有VLA模型的局限性,我们提出NORA,这是一种参数量为3亿的模型,旨在减少计算开销同时保持强大的任务性能。NORA 采用 Qwen-2.5-VL-3B 多模态模型作为其骨干,利用其卓越的视觉语义理解能力来增强视觉推理和行动定位。此外,我们的模型在970,000个真实世界的机器人演示数据上进行了训练,并配备了FAST+分词器以实现高效的动作序列生成。实验结果表明,NORA 在计算开销显著降低的情况下,比现有大规模的VLA模型实现了更好的任务性能,使其成为实时机器人自主控制的更实际的解决方案。
arXiv:2504.19848v1 类型:交叉学科
摘要:自主机器人系统的发展为精确而一致地执行复杂任务提供了潜在机会。近期人工智能(AI)的进步使更强大的智能自动化系统得以实现,应对日益复杂的挑战。然而,这一进展引发了对人类在这些系统中角色的疑问。以人为本的人工智能(HCAI)旨在在人类控制与自动化之间找到平衡,确保性能提升的同时,保持创造力、专业性和责任。在实际应用中,自主机器人必须在任务性能、可靠性和安全性之间取得平衡。结合HCAI原则可以增强人机协作,并确保负责任的操作。
本文通过对SciMAT和VOSViewer的利用,对Scopus数据库中的智能自主机器人系统数据进行了文献计量学分析,研究了学术趋势、新兴话题以及AI在自适应机器人行为中的作用,强调了HCAI架构的重要性。这些见解随后投射到IBM MAPE-K架构上,旨在识别这些研究成果如何映射到实际自主机器人系统开发的努力中,以应对真实世界的情景。
arXiv:2504.19847v1 交叉发布类型: cross
摘要: 在这项工作中,我们提出了基于分割的人-物交互(Seg2HOI)方法,这是一种新颖的框架,将基于分割的视觉基础模型与人-物交互任务结合在一起,区别于传统的基于检测的人-物交互(HOI)方法。我们的方法通过不仅预测标准的三元组,而且还引入四元组来增强HOI检测,四元组通过包括人-物对的分割掩码对HOI三元组进行了扩展。具体来说,Seg2HOI继承了视觉基础模型的属性(例如,提示可调和交互机制),并将这些属性纳入到人-物交互任务中。尽管该框架仅针对HOI进行训练,而没有针对这些属性提供额外的训练机制,但其仍能高效地运行。在两个公开基准数据集上的广泛实验表明,Seg2HOI即使在零样本场景下也能达到最先进的方法的性能。最后,我们提出Seg2HOI可以从训练中未使用的新型文本和视觉提示生成人-物交互四元组和交互式人-物分割,这使得它可以通过利用这种灵活性在广泛的应用场景中具有多种用途。
arXiv:2504.19822v1 类别:交叉
摘要:基于人工智能的天气预报模型近期取得了显著进展,如FourCastNet、Pangu-Weather和GraphCast,展示了深度学习在模拟复杂大气动力学方面的非凡能力。在此基础上,我们提出了一种名为Mj\"olnir的新颖的基于深度学习的全球闪电闪光密度参数化框架。该模型在ERA5大气预测变量和全球闪电定位网(WWLLN)观测数据的每日时间分辨率和1度空间分辨率下进行训练,捕捉了大尺度环境条件与闪电活动之间的非线性映射。模型架构基于InceptionNeXt骨干网络并结合SENet,采用多任务学习策略同时预测闪电的发生和强度。大量的评估表明,Mj\"olnir准确地重现了全球闪电分布、季节变化和地区特征,年度平均场的皮尔森相关系数达到0.96。这些结果表明,Mj\"olnir不仅是一种有效的数据驱动全球闪电参数化方案,而且是下一代地球系统模型(AI-ESMs)中基于AI的方法的一种有前途的方案。
arXiv:2504.19818v1 类别: cross
摘要:植物表型分析越来越多地依赖于基于图像的自动化分析工作流程,以提高其准确性和扩展性。然而,许多现有解决方案仍然过于复杂,重新实现和维护困难,并对缺乏实质性计算专业知识的用户构成高门槛。为应对这些挑战,我们介绍了PhenoAssistant:一种通过直观的自然语言交互简化植物表型分析的开创性AI驱动系统。PhenoAssistant利用大型语言模型协调一个精心挑选的工具包,支持包括自动表型提取、数据可视化和自动模型训练在内的任务。我们通过多个代表性案例研究和一系列评估任务验证了PhenoAssistant。通过显著降低技术门槛,PhenoAssistant凸显了AI驱动方法在植物生物学领域民主化AI应用方面的前景。
arXiv:2504.19792v1 类型:交叉
摘要:本文建立了上下文结构理论,以数学上描述表示学习或预训练的机制。尽管基础模型取得了显著的经验成功,但对于它们学习了哪些表示以及这些表示为何对于各种下游任务是有用的,这一点尚不明确。对表示学习的科学理解至关重要,尤其是在扩展模型规模带来边际效益递减的情况下,设计新的预训练方法对于进一步进展至关重要。
先前的工作对不同的表示学习方法处理得相当不同,而上下文结构理论提供了一种统一框架来分析这些方法。核心论点认为,表示是从输入 X 和上下文变量 A 之间的关联中学到的。我们证明,如果编码器捕获了这一关联的最多信息,也就是说,我们说编码器学习了上下文结构,那么它在与上下文兼容的任务类别中将是最优的。我们也展示了上下文最实用的情况是在 X 和 A 之间的关联既不过强也不过弱。上下文结构理论的一个重要含义是,单纯增加模型规模将带来边际效益递减,进一步的进步需要更好的上下文。
我们证明了许多预训练目标都可以学习上下文结构,包括有监督学习、自监督学习、生成模型等。然后,我们引入了两种通用目标——SVME 和 KISE,用于学习上下文结构。我们还展示了如何将多个上下文结合起来,这提供了一种简便的方式来从现有上下文创建更好的上下文。然后,我们证明了表示学习的统计学习界。最后,我们讨论了从预训练到下游任务的数据分布转移的影响。
arXiv:2504.19755v1 交叉类型
摘要:肝硬化是一种隐匿性疾病,涉及正常肝组织被纤维性瘢痕组织所替代,导致重大健康并发症。传统的肝活检诊断方法具有侵入性,因此不便于用于常规筛查。在本文中,我们提出了一种结合机器学习技术、临床数据和超声扫描的混合模型,以提高肝纤维化和肝硬化的检测准确性。该模型将固定血液检测概率与超声图像的深度学习模型预测(DenseNet-201)相结合。结合后的混合模型达到了92.5%的准确率。研究结果证明了结合模型在提高诊断准确性并支持肝病早期干预方面的可行性。
arXiv:2504.19754v1 Announce Type: cross
摘要:检索增强生成(RAG)已成为通过将大型语言模型(LLMs)的输出与外部知识资源相结合来提升其性能的一种变革性方法。然而,一个关键问题仍然存在:如何有效地在LLM的输入限制内管理大量的外部知识?传统方法通过将外部文档划分为较小的固定大小片段来解决这一问题。虽然这种方法缓解了输入限制,但它常常导致语境片段化,从而导致检索不完整和生成连贯性降低。为了克服这些不足,引入了两种先进的技术——延迟分块和上下文检索,两者都旨在保持全局语境。尽管它们具有潜力,但它们的比较优势和局限性仍然不清楚。本研究对延迟分块和上下文检索进行了严谨的分析,评估了它们在优化RAG系统方面的有效性和效率。我们的结果表明,上下文检索在保持语义连贯性方面更为有效,但需要更多的计算资源。相比之下,延迟分块提供了更高的效率,但往往会牺牲相关性和完整性。
arXiv:2504.19720v1 交叉公告类型
摘要:生成人工智能(Generative AI)中的大型语言模型(LLMs)取得了显著进展,演变成广泛应用于各个领域和应用的复杂多用途工具。然而,由于其庞大的参数数量导致的巨大内存开销,以及注意力机制带来的高计算需求,使得实现LLM推理服务的低延迟和高吞吐量面临重大挑战。近期,由突破性研究驱动的进展极大地加速了这一领域的进步。本文对这些方法进行了全面综述,涵盖了基本的实例级方法、深入的集群级策略、新兴场景方向以及其他一些但同样重要的领域。在实例级别,我们回顾了模型放置、请求调度、解码长度预测、存储管理以及分层概念。在集群级别,我们探讨了GPU集群部署、多实例负载均衡和云服务解决方案。对于新兴场景,我们围绕具体的任务、模块和辅助方法组织讨论。为了确保全面的概览,我们还强调了几种专门但至关重要的领域。最后,我们概述了潜在的研究方向,以进一步推进LLM推理服务的领域。