arXiv:2505.05622v1 类型: cross
摘要: 航空视觉与语言导航(VLN),需要无人机解释自然语言指令并在复杂的城市环境中导航,已成为将人类与机器人交互、三维空间推理和现实世界部署联系起来的关键性体现式AI挑战。尽管现有的地面VLN代理在室内外场景中取得了显著成果,但在无预定义导航图且探索长期远景时行动空间呈指数级扩大的情况下,它们在航空VLN中表现不佳。在本文中,我们提出了 \textbf{CityNavAgent},这是一种大语言模型(LLM)赋能的代理,大幅降低了城市航空VLN的导航复杂性。具体而言,我们设计了一个分层语义规划模块(HSPM),将长期任务分解为不同语义层次的子目标。代理通过实现不同能力层次的LLM来逐步达到目标。此外,我们开发了一个全局记忆模块,将历史轨迹存储为拓扑图中,以简化对访问目标的导航。广泛的基准实验显示,我们的方法达到了最先进的性能,并有着显著的提升。进一步的实验展示了CityNavAgent在连续城市环境中进行航空VLN的有效性。代码可在 \href{https://github.com/VinceOuti/CityNavAgent}{链接} 获取。
arXiv:2505.05599v1 宣布类型: cross
摘要:在卫星图像中进行目标定位特别具有挑战性,主要原因在于对象的高度变异性、低空间分辨率以及由噪声、云朵和城市灯光等主要特征引起的干扰。在本研究中,我们关注三个卫星数据集:上层大气重力波(GW)、中层大气博罗(Bore)和海洋涡旋(OE),每个数据集都具有其独特的挑战。这些挑战包括主要对象模式在规模和外观上的变化,其中目标对象的大小、形状和特征扩展可以显著不同。为了解决这些挑战,我们提出了一种名为YOLO-DCAP的新型增强版YOLOv5,旨在改善这些复杂场景下的目标定位。YOLO-DCAP集成了多尺度扩张残差卷积(MDRC)块,以在变化的扩张率下捕捉多尺度特征,并集成了注意力辅助空间池化(AaSP)模块,以聚焦于全局相关的空间区域,从而增强特征选择。这些结构改进有助于更好地在卫星图像中定位物体。实验结果表明,YOLO-DCAP显著优于YOLO基模型和最先进的方法,在基模型上分别实现了mAP50平均提高20.95%和IoU提高32.23%,在最先进的替代方法上分别提高7.35%和9.84%,并且在所有三个卫星数据集中均保持一致。这些在所有三个卫星数据集中的持续提升突显了所提方法的稳健性和适用性。我们的代码已在 https://github.com/AI-4-atmosphere-remote-sensing/satellite-object-localization 公开发布。
arXiv:2505.05595v1 交叉公告类型
摘要:在传统期货交易这一复杂的数据和变量环境中,实时交易订单簿(LOB)等变量使价格预测变得复杂,我们介绍了一种利用注意力机制的FutureQuantTransformer模型,以应对这些挑战。与专注于点预测的传统模型不同,FutureQuant模型在预测未来价格范围和波动性方面表现出色,从而为交易策略提供了更丰富的洞察。其解析和学习复杂市场模式的能力提升了决策质量,显著提高了风险管理,并在30分钟交易中实现了比最先进的模型更简单的算法带来的平均收益高出0.1193%的结果,该算法使用RSI、ATR和布林带等因子。这一创新标志着在期货交易这一波动性较大的领域中预测分析的一个重要进步。
arXiv:2505.05589v1 交叉类型公告
摘要:反应型舞蹈生成(RDG)根据引导舞者和音乐生成跟随者的动作,同时确保空间协调和时间一致性。然而,现有的方法过度强调全局约束和优化,忽视了局部信息,例如细粒度的空间交互和局部的时间上下文。因此,我们提出了ReactDance,这是一种用于高保真RDG的新颖的基于扩散的框架,具有长期一致性及多尺度可控性。不同于现有的方法在伴侣合成中难以处理交互保真度、同步以及时间一致性问题,我们的方法引入了两个关键创新:1)组残差有限标量量化(GRFSQ),这是一种多尺度解耦动作表示,能够从粗粒度的身体节奏到细粒度的关节动力学捕获交互语义,2)块局部上下文(BLC),这是一种采样策略,通过局部块因果屏蔽和周期位置编码消除长序列生成中的误差累积。基于解耦的多尺度GRFSQ表示,我们实现了具有层解耦无分类指导(LDCFG)的扩散模型,允许在不同尺度上对动作语义进行精细控制。在标准基准上的大量实验表明,ReactDance超越了现有方法,实现了最先进的性能。
arXiv:2505.05588v1 Announce Type: 穿越
摘要:尽管轨迹优化在商业和工业机器人中广泛应用,但由于其高计算需求,在空间应用中的使用受到了限制。在本文中,我们介绍了在国际空间站(ISS)上进行的Astrobee自由飞行机器人实验的飞行结果,这些结果展示了机器学习如何加速空间站上的轨迹优化,同时保持理论求解器的保证。据作者所知,这是在ISS上第一次基于学习的控制演示。我们的方法利用了GuSTO顺序凸编程框架,并使用一个在离线训练的神经网络将问题参数映射到有效的初始“温暖启动”轨迹,为资源受限的空间平台提供了更快的实时优化途径。
arXiv:2505.05577v1 Announce Type: 集成交叉
摘要:现有的生物医学基准并没有提供从训练、评估到多模态生物数据和广泛药物学机器学习任务推断的端到端基础设施。我们提出了PyTDC,这是一个开源的机器学习平台,提供了多模态生物AI模型的简化训练、评估和推断软件。PyTDC 统一了分布式、异构且不断更新的数据来源和模型权重,并标准化了基准测试和推断端点。本文讨论了PyTDC架构的组成部分,并且据我们所知,首次介绍了引入的单细胞药物靶点提名机器学习任务的案例研究。我们发现,图表示学习的先进方法和图论特定领域的技术在该任务上表现欠佳。尽管我们发现了一种语境感知的几何深度学习方法,其表现优于评估的先进和特定领域的基线方法,但该模型无法对未见过的细胞类型进行泛化或整合额外的模态,这突显了PyTDC促进开发多模态、语境感知的基石模型以解决生物医学AI领域开放问题的巨大潜力。
arXiv:2505.05573v1 Announce Type: cross
摘要:从文本描述生成现实医疗图像具有解决医疗AI领域数据稀缺挑战的巨大潜力,同时保护患者隐私。本文在医疗领域对文本到图像合成进行了全面研究,比较了两种不同的方法:(1)针对大型预训练潜藏扩散模型进行微调,以及(2)训练小型、领域特定模型。我们提出了一种名为MSDM的新模型,这是一款基于Stable Diffusion优化的架构,它融合了临床文本编码器、变分自编码器和交叉注意机制,以更好地使医疗文本提示与生成的图像对齐。我们的研究比较了两种方法:针对大型预训练模型进行微调(FLUX,Kandinsky)与训练紧凑的领域特定模型(MSDM)。跨结肠镜检查(MedVQA-GI)和放射学(ROCOv2)数据集的评估表明,虽然大型模型在保真度方面表现出色,但我们的优化MSDM在较低计算成本下提供了相当的质量。定量指标和医疗专家进行的定性评估揭示了每种方法的优点和局限性。
arXiv:2505.05568v1 类型:交叉
摘要:我们引入了Griffin,这是首个专门针对关系数据库(RDBs)的基石模型尝试。与之前专注于单一RDB任务的小型模型不同,Griffin统一了数据编码器和任务解码器,以处理多样化的任务。此外,我们通过引入交叉注意力模块和新颖的聚合器,增强了该架构。Griffin在单表和RDB数据集中进行了预训练,使用高级编码器处理分类、数值和元数据特征,并结合交叉注意力模块和增强的图神经网络(MPNNs)等创新组件,以捕捉关系数据的复杂性。在跨越15000万个节点、多种领域(涉及多个领域)的大规模、异构和时序图中进行评估,Griffin在单个任务模型上的性能表现出优越或可比性,特别是在数据量不足的场景下表现出色,并且在预训练跨新数据集和任务中的相似性和多样性方面显示出强大的迁移能力,这突显了其作为适用于RDBs的通用基石模型的潜力。代码详见https://github.com/yanxwb/Griffin。
arXiv:2505.05543v1 交叉公告类型
摘要:信任是人类与代理交互的基本组成部分。随着日常生活中人工代理的越来越多,理解人们如何感知和信任这些代理变得至关重要。影响这种感知的一个关键挑战是“毛骨悚然谷效应”(Uncanny Valley Effect, UVE),其中越来越具人类特征的机器实体可能会被感知为令人毛骨悚然或令人反感。尽管人们对信任和UVE的兴趣不断增长,但现有研究在这些概念的定义和操作化方面存在广泛差异。这种不一致性提出了重要的问题,即UVE如何以及在什么条件下影响代理的信任度。目前缺乏它们之间关系的系统性理解。本文综述旨在探讨UVE对人类对代理的信任影响,并识别现有实证文献中的方法学模式、限制和空白。根据PRISMA指南,系统性搜索确定了53项研究,这些研究调查了UVE相关的构建及其或相关信任结果。根据一套结构化的类别进行分析,包括代理和交互类型、方法论和测量方法,以及关键发现。系统综述的结果表明,大多数研究依赖于静态图像或具有有限实时交互的假设场景,大多数使用主观信任度量。本文综述提供了一个新颖的框架,用于根据实证研究UVE的最佳实践标准分类信任度量方法。作为首次系统地映射UVE与信任交集的尝试,本文综述加深了我们对它们相互作用的理解,并为未来的研究奠定了基础。关键词:毛骨悚然谷效应,信任,人类特征,亲和反应,人类-代理交互
arXiv:2505.05538v1 交叉类型公告
摘要:心电图(ECG)分类对于自动心脏疾病诊断至关重要,但现有方法往往难以同时捕捉局部形态细节和长时序依赖性。为了解决这些问题,我们提出了一种名为Cardioformer的新颖多功能混合模型,该模型结合了跨通道补丁、分层残差学习和两阶段自注意力机制。Cardioformer首先编码多尺度标记嵌入以捕获细粒度局部特征和全局上下文信息,然后通过跨内粒度和跨粒度自注意力选择性地融合这些表示。在受试者独立设置下对三个标准ECG数据集进行广泛评估表明,该模型一致地超越了四种当前最先进的baseline模型。我们的Cardioformer模型分别在MIMIC-IV、PTB-XL和PTB数据集中达到了AUROC为96.34±0.11、89.99±0.12和95.59±1.66的成绩,优于PatchTST、Reformer、Transformer和Medformer模型。此外,Cardioformer还展示了强大的跨数据集泛化能力,在使用MIMIC-IV训练时,其在PTB数据集上的AUROC为49.18%,在PTB-XL上的AUROC为68.41%。这些发现凸显了Cardioformer在促进自动化ECG分析方面的能力,为更准确和稳健的心血管疾病诊断铺平了道路。我们已在https://github.com/KMobin555/Cardioformer发布了源代码。