arXiv:2502.17499v2 宣告类型: replace-cross
摘要:家庭基于单导联AI-ECG设备使连续、实时心脏监测成为可能。然而,单导联AI-ECG算法参数计算的准确性仍有待充分验证,这对于长QT综合征(LQTS)和一度房室传导阻滞(AVBI)等状况至关重要。在多中心研究中,我们评估了FeatureDB,这是一种ECG测量计算算法,在使用三个注释数据集的单导联监测情境下(PTB-XL+(n=21,354)、CSE(n=105)和HeartVoice-ECG-lite(n=369))。FeatureDB在关键测量(PR、QRS、QT、QTc)中与标准ECG机器(12SL和Uni-G)显示了强烈的相关性,并且由Bland-Altman分析证实了高度的一致性。在检测LQTS(AUC=0.786)和AVBI(AUC=0.684)方面,FeatureDB表现出了与商用ECG系统(12SL:0.859/0.716;Uni-G:0.817/0.605)相当的诊断性能,显著优于ECGDeli(0.501/0.569)。值得注意的是,FeatureDB可以在资源受限的设备上本地运行,从而使其在低连接性环境中得以使用。这些发现确认了FeatureDB在单导联ECG诊断中的临床可靠性,并强调了其在传统ECG诊断与可穿戴技术结合中进行大规模心血管监测和早期干预方面的潜力。
arXiv:2502.15709v2 宣布类型: 替换-交叉
摘要:将人工智能整合到教育中,在提高学习效率方面具有巨大的潜力。大型语言模型(LLMs),如ChatGPT、Gemini和Llama,允许学生查询广泛的主题,提供前所未有的灵活性。然而,LLMs面临着挑战,例如处理内容的相关性差异和缺乏个性化。为了解决这些挑战,我们提出了TutorLLM,这是一种基于知识跟踪(KT)和检索增强生成(RAG)技术的个性化学习推荐LLM系统。TutorLLM的新颖之处在于它将KT和RAG技术与LLMs结合起来,这使得它可以动态检索与上下文相关的内容,并根据学生个人学习状态提供个性化学习建议。具体而言,这种集成使TutorLLM能够根据Multi-Features with Latent Relations BERT-based KT(MLFBK)模型预测的个人学习状态调整响应,并通过Scraper模型提高响应准确性。评估包括用户评估问卷和绩效指标,结果显示用户满意度提高了10%,测验分数提高了5%。
arXiv:2502.13881v3 宣布类型: replace-cross
摘要:对话型产品搜索(CPS)系统通过自然语言与用户交互,提供个性化和上下文相关的商品列表。然而,现有大多数关于CPS的研究仅限于模拟对话,因为缺乏由类似人类语言驱动的真实CPS数据集。此外,现有的电商对话数据集是为特定市场或特定语言构建的,因此无法支持跨市场和多语言使用。在本文中,我们提出了一个CPS数据收集协议,并创建了一个新的CPS数据集PSCon,该数据集通过类似人类语言的对话来协助产品搜索。该数据集通过指导下的human-human数据收集协议收集,适用于两个市场和两种语言。通过制定CPS任务,数据集允许对六个子任务进行全面和深入的研究:用户意图检测、关键词提取、系统行为预测、问题选择、项目排名和响应生成。此外,我们对数据集进行了简要分析,并在提出的CPS数据集上提出了基准模型。我们提出的数据集和模型将有助于促进未来CPS的研究。
arXiv:2502.13013v2 Announce Type: replace-cross
摘要:通用型人形移动与操作动作具有显著挑战性,要求协调全身控制和精准的、接触丰富的物体操作。为解决这一问题,本文提出了一种半自主远程操控系统HOMIE,该系统结合了用于身体控制的映射到踏板的强化学习策略、同构外骨骼臂用于手臂控制,以及用于手部控制的运动感应手套,形成一个统一的操控舱,自由操作人形机器人并建立数据飞轮。策略中包含了新颖的设计,如上身姿态课程、高度跟踪奖励以及对称性利用。这些特性使系统能够执行特定高度的行走和蹲下动作,同时无缝适应任意上身姿态。外骨骼通过消除对逆动力学的依赖,提供了更快更精确的手臂控制。手套使用霍尔传感器而不是伺服电机,即使是紧凑型设备也可以实现15个以上自由度,并且可以自由适应任何灵巧手的模型。与之前的远程操控系统相比,HOMIE 在效率上尤为出色,可以在一半的时间内完成任务;工作范围更广,让用户可以自由地触及高处和低处,并与任何物体互动;而且价格亲民,仅为500美元。系统完全开源,演示和代码可以在我们的https://homietele.github.io/ 找到。
arXiv:2502.10363v3 Announce Type: replace-cross
摘要:在稀疏立足点的地面上穿越危险地形对人形机器人构成了重大挑战,需要精确的足部放置和稳定的移动。现有的基于学习的方法往往在这样的复杂地形上遇到困难,因为稀疏的立足点奖励和学习过程效率低下。为应对这些挑战,我们提出了BeamDojo,这是一种用于在稀疏立足点上使能灵活人形移动的增强学习(RL)框架。BeamDojo首先引入了一种针对多边形脚部设计的基于采样的立足点奖励,同时还引入了双重评论家来平衡密集移动奖励和稀疏立足点奖励之间的学习过程。为了促进足够的尝试和错误探索,BeamDojo采用了两阶段的RL方法:第一阶段通过在平坦地面上训练人形机器人并提供任务地形感知观察来缓解地形动态,第二阶段在实际的任务地形上细化策略。此外,我们实施了一种基于机载LiDAR的高度图,以实现实际部署。广泛的仿真和实地实验表明,BeamDojo在仿真中实现了高效的学习,并能够在实际中实现出色的足部放置和灵活移动,即使在显著的外部干扰下也能够保持高成功率。
arXiv:2502.08449v2 宣告类型: 替换-交叉
摘要:在机器人操控领域,实现类人的灵巧性是一个关键目标。最近基于3D模仿学习的进展展示了有希望的结果,为实现这一目标提供了一条有效途径。然而,获得高质量的3D表示面临两个关键问题:(1)单视角相机捕获的点云质量受到相机分辨率、定位以及灵巧手引起的遮挡等因素的重大影响;(2)全局点云缺乏关键的接触信息和空间对应关系,这对于精细的灵巧操控任务是必不可少的。为了解决这些问题,我们提出了CordViP,一种新颖的框架,通过利用物体和机器人本体感受的鲁棒6D姿态估计来构建和学习对应关系。具体而言,我们首先引入了交互感知点云,这些点云建立了物体与手之间的对应关系。然后,这些点云用于我们的预训练策略中,我们还结合了以物体为中心的接触图和手-臂协调信息,有效地捕捉了空间和时间动态。我们的方法展示了卓越的灵巧操控能力,在六个真实世界任务中取得了最先进的性能,远远超过了其他基线方法。实验结果还突显了CordViP在不同物体、视角和场景下的出色泛化能力和鲁棒性。有关代码和视频,请访问 https://aureleopku.github.io/CordViP。
arXiv:2502.03962v2 宣告类型: replace-cross
摘要:变量子算法(VQAs)的表现高度依赖于优化时所选择的参数量子电路。VQAs 中的一个最大挑战是在特定问题上设计适宜的量子电路。本文提出了一种无梯度蒙特卡洛树搜索(MCTS)技术来自动化量子电路设计过程。我们提出的技术基于采样方案和逐步扩展技术,引入了一种全新的行为空间公式以动态探索空间。当在随机量子电路领域测试我们的 MCTS 方法时,MCTS 能够在不同值的稳定器 Renyi 散度下逼近无结构电路。结果表明,MCTS 能够独立于其非结构化程度逼近基准量子态。随后,我们的技术在包括量子化学和线性方程组系统等各个应用领域都表现出稳健性。与之前的 MCTS 研究相比,我们的技术在相同或更好的性能下将量子电路评估次数减少了 10 到 100 倍。此外,生成的量子电路具有多达 3 倍更少的 CNOT 门,这对于嘈杂量子硬件的实现至关重要。
arXiv:2502.02772v2 交叉模态类型: 替换交叉
摘要:提出了一种同时嵌入力轮廓和语言的方法,以实现口头和触觉沟通的协同协调。当两个人一起搬运大型重物时,他们会通过口头交流来协调各自的意图动作以及施加在物体上的物理力。这种口头和物理线索的自然结合使有效的协调成为可能。类似地,人类与机器人的交互可以通过整合口头和触觉沟通模态来实现这种水平的协调。本文提出了一种框架,以便以统一的方式嵌入词语和力轮廓,从而使两种沟通模态能够以有效且协同的方式结合和协调。在此将展示,尽管语言和物理力轮廓被视为完全不同的,但两者仍可以在统一的潜在空间中嵌入,并且可以量化两种模态之间的距离。在这个潜在空间中,力轮廓和语言可以:a) 相互补充,b) 整合个体效应,c) 以可互换的方式替代。首先,本文将讨论跨模态嵌入的需求,并介绍基本架构和关键技术组件。随后将讨论数据收集方法和实施挑战,以及实验结果和讨论。
arXiv:2502.01143v3 类别:替换-交叉
摘要:人形机器人在执行人体类似的整体技能方面具有前所未有的灵活性潜力。然而,由于模拟与现实世界之间的动力学不匹配,实现敏捷和协调的整体动作仍然是一项重大挑战。现有的方法,如系统辨识(SysID)和领域随机化(DR)方法,通常依赖于耗时的参数调整,或者导致过于保守的策略,牺牲了灵活性。在本文中,我们提出了ASAP(Aligning Simulation and Real-World Physics),这是一种两阶段框架,旨在解决动力学不匹配问题,并使人形机器人能够实现灵活的整体动作。在第一阶段,我们使用重新定向的人类动作数据在模拟中预训练动作跟踪策略。在第二阶段,我们部署这些策略到现实世界,并收集现实世界的数据来训练一个delta(残差)动作模型,该模型用于补偿动力学不匹配。然后,ASAP将预训练策略与集成到模拟器中的delta动作模型进行微调,以有效对齐与现实世界动力学。我们分别在三种转移场景中评估ASAP:IsaacGym到IsaacSim、IsaacGym到Genesis以及IsaacGym到现实世界中的Unitree G1人形机器人。我们的方法显著提高了各种动态动作的敏捷性和整体协调性,相比系统辨识、领域随机化和动态残差学习的基线方法,减少了跟踪误差。ASAP使之前难以实现的高敏捷动作成为可能,展示了delta动作学习在弥合模拟与现实世界动力学之间的差距方面的潜力。这些结果表明,delta动作学习为开发更富有表现力和敏捷的人形机器人提供了一个有希望的从模拟到现实的方向。
arXiv:2501.17567v2 通告类型: replace-cross
摘要:人工智能(AI)工作负载对计算能力的无限需求正在促使行业开发更快更高效的加速器。然而,自定义硬件的刚性与满足文献中不断演进且异构的机器学习(ML)模型需求的可扩展且多功能架构的需求相冲突。在此背景下,由多个(也许是异构的)加速器组成的多芯片级架构是一个诱人的选择,但由于现有的芯片到芯片互连仍然非常刚性和低效,这一选择受到了阻碍。在本文中,我们探讨了无线技术作为现有有线互连的补充在多芯片级方法中的潜力。利用最先进的评估框架,我们展示了无线互连可以平均带来10%的速度提升,并且最大可以提升20%。我们还强调了有线和无线互连之间的负载均衡的重要性,这一主题将在未来的工作中进一步探讨。