我们提出了一种结合三维生成式人工智能和机器人组装将语音转化为物理对象的系统。该系统利用自然语言输入,使设计和制造更加便捷,即使是没有3D建模或机器人编程专业知识的个人也能创建物理对象。我们提出利用基于晶格的体素组件的离散机器人组装来解决在物理生产中使用生成式AI输出所面临的挑战,例如设计变异性、制造速度、结构完整性和材料浪费。该系统解释语音以生成3D对象,将其离散化为体素组件,计算优化的组装序列,并生成机器人刀具路径。结果通过组装各种物体(从椅子到架子)得到证明,这些物体通过语音提示,并在5分钟内使用6轴机械臂实现。
利用无线通信进行模型聚合是解决联邦边缘学习中通信瓶颈的有效方法。通过利用多址信道的叠加特性,这种方法促进了通信和计算的集成设计,从而增强系统隐私并降低实现成本。然而,无线信道中固有的电磁干扰通常表现出重尾分布,导致全局聚合梯度中出现异常强的噪声,这会显著降低训练性能。为了解决这个问题,我们提出了一种新颖的梯度裁剪方法,称为中值锚定裁剪 (MAC),以对抗重尾噪声的有害影响。我们还推导了在 MAC 下模拟无线联邦学习模型训练的收敛速度的解析表达式,定量地证明了 MAC 对训练性能的影响。大量的实验结果表明,提出的 MAC 算法有效地减轻了重尾噪声的影响,从而大大增强了系统的鲁棒性。
机器学习 (ML) 在医学等关键领域的应用带来了风险,需要进行监管。其中一项要求是,高风险应用中机器学习系统的决策应为人所理解。“可解释人工智能”(XAI) 领域似乎满足了这一需求。然而,以其目前的形式,XAI 不适合为机器学习提供质量控制;它本身需要审查。流行的 XAI 方法无法可靠地回答有关机器学习模型、其训练数据或给定测试输入的重要问题。我们回顾了结果,这些结果表明流行的 XAI 方法系统地将重要性归因于与预测目标无关的输入特征。这限制了它们在模型和数据(无效)验证、模型改进和科学发现等方面的效用。我们认为,这种限制的根本原因是,当前的 XAI 方法没有解决明确定义的问题,也没有根据解释正确性的客观标准进行评估。研究人员应该首先正式定义他们打算解决的问题,然后相应地设计方法。这将导致可以从理论上验证的解释正确性概念和可以使用真实数据评估的解释性能的客观指标。
基于感知的导航系统在传统基于深度的导航方案不足以应对的复杂地形中,对无人地面车辆(UGV)导航非常有用。然而,这些数据驱动的方法高度依赖于其训练数据,并且可能在毫无预兆的情况下以令人惊讶和戏剧性的方式失败。为了确保车辆和周围环境的安全,导航系统必须能够识别感知模型的预测不确定性,并在面对不确定性时安全有效地做出响应。为了实现感知不确定性下的安全导航,我们开发了一种基于概率和重建的能力估计(PaRCE)方法,以估计模型对整个输入图像以及图像中特定区域的熟悉程度。我们发现,整体能力得分可以正确预测正确分类、错误分类和非分布 (OOD) 样本。我们还证实,区域能力图可以准确地区分图像中熟悉和不熟悉的区域。然后,我们利用这些能力信息来开发一种规划和控制方案,该方案能够在保持低错误概率的同时实现有效导航。我们发现,与没有能力感知的基线控制器相比,能力感知方案大大减少了与不熟悉障碍物碰撞的次数。此外,区域能力信息对于实现高效导航非常有价值。
复杂的三维场景理解日益受到关注,场景编码策略在其中发挥着至关重要的作用。然而,针对各种场景的最佳场景编码策略仍不清楚,特别是与基于图像的方法相比。为了解决这个问题,我们进行了一项综合研究,探讨了各种用于三维场景理解的视觉编码模型,确定了每个模型在不同场景中的优缺点。我们的评估涵盖七个视觉基础编码器,包括基于图像、基于视频和基于三维的基础模型。我们在四个任务中评估这些模型:视觉-语言场景推理、视觉定位、分割和配准,每个任务都侧重于场景理解的不同方面。我们的评估得出关键发现:DINOv2 表现出优越的性能,视频模型擅长对象级任务,扩散模型有利于几何任务,而语言预训练模型在与语言相关的任务中显示出意想不到的局限性。这些见解挑战了一些传统的理解,为利用视觉基础模型提供了新的视角,并突出了在未来的视觉-语言和场景理解任务中需要更灵活的编码器选择。代码:https://github.com/YunzeMan/Lexicon3D
单次语音转换(VC)旨在仅使用一个语音样本就将任何源语音的音色更改为与目标说话人匹配。现有的基于风格迁移的VC方法依赖于语音表示解纠缠,并且难以准确且独立地编码每个语音成分并有效地将其重新组合成转换后的语音。为了解决这个问题,我们提出了Pureformer-VC,它利用Conformer块构建解纠缠编码器,并利用Zipformer块构建风格迁移解码器作为生成器。在解码器中,我们使用有效的styleformer块将说话人特征有效地整合到生成的语音中。该模型使用生成式VAE损失来编码成分,并使用三重损失进行无监督判别式训练。我们将styleformer方法应用于Zipformer的共享权重以进行风格迁移。实验结果表明,与现有方法相比,该模型在单次语音转换场景中实现了可比的主观评分,并在客观指标方面有所改进。
现有的关键词识别 (KWS) 系统主要依赖于预定义的关键词短语。然而,识别自定义关键词的能力对于定制与智能设备的交互至关重要。本文提出了一种新颖的基于示例查询 (QbyE) 的 KWS 系统,该系统采用频谱-时间图注意力池化和多任务学习。该框架旨在有效地学习用于 QbyE KWS 任务的说话人无关和语言信息嵌入。在这个框架内,我们研究了三种不同的编码器建模网络架构:LiCoNet、Conformer 和 ECAPA_TDNN。在包含 629 位说话人的大型内部数据集上的实验结果证明了所提出的 QbyE 框架在最大限度地发挥 LiCoNet 等更简单模型潜力的有效性。特别是,效率提高 13 倍的 LiCoNet,其性能与计算密集型 Conformer 模型相当(在 0.3 FAs/Hr 时,FRR 分别为 1.98% 和 1.63%)。
控制器整定与优化一直是机器人和机电一体化系统中最基本的问题之一。传统方法通常基于模型,但其性能严重依赖于精确的数学系统模型。在具有复杂动力学的控制应用中,获得精确的模型通常具有挑战性,这促使我们转向数据驱动的方法。虽然各种研究人员已经探索了单个控制器的优化,但在涉及多个控制器时,安全高效地获得最佳控制器参数仍然是一个挑战。在本文中,我们提出了 SafeCtrlBO 来同时安全地优化多个控制器。我们简化了安全贝叶斯优化的探索过程,减少了计算量,而不会牺牲扩展能力。此外,我们使用加性核来提高高斯过程更新未知函数的效率。永磁同步电机 (PMSM) 的硬件实验结果表明,与现有的安全贝叶斯优化算法相比,SafeCtrlBO 可以更有效地获得最优参数,同时确保安全。
基于自我视角的可靠具身感知对于智能移动代理的自主导航技术而言极具挑战性,却又至关重要。随着社会机器人的需求日益增长,近场场景理解成为在拥挤和非结构化环境中与导航相关的自我中心感知任务领域的重要研究课题。由于环境条件复杂以及由于截断和遮挡导致的周围障碍物难以识别,在这种情况下感知能力仍然较差。为了进一步增强移动机器人的智能化水平,本文构建了一个基于三种主要传感器(摄像头、激光雷达和鱼眼镜头)的自我中心多传感器数据采集平台,该平台支持灵活的传感器配置,能够实现从自我视角动态视野,捕捉近处或远处区域。同时,构建了一个名为RoboSense的大规模多模态数据集,以促进自我中心机器人感知。具体而言,RoboSense包含超过13.3万个同步数据,其中包含在全360°视野中标注的140万个3D边界框和ID,形成了跨7600个时间序列的21.6万条轨迹。其周围近距离障碍物的标注数量分别是KITTI和nuScenes等用于自动驾驶场景的先前数据集的270倍和18倍。此外,我们定义了一种新的近场3D感知匹配准则和预测指标。基于RoboSense,我们制定了6项流行的任务以促进未来的研究发展,并相应地提供了详细的分析以及基准。为保护隐私,已采取数据脱敏措施。
晶体结构可以简化为在底层晶格上沿整个三维空间重复出现的周期性点集。传统上,表示晶体的方法依赖于晶格参数、对称性和空间群等描述符来表征结构。然而,实际上,材料中的原子在绝对零度以上总是振动的,导致其位置发生连续波动。这种动态行为破坏了晶格的潜在周期性,使得基于静态晶格参数和传统描述符的晶体图即使在轻微扰动下也会不连续。为此,化学家提出了成对距离分布 (PDD) 方法,该方法已被用于区分世界上最大的真实材料集合剑桥结构数据库中的所有周期性结构。然而,要实现 PDD 的完整性,需要定义大量的相邻原子,从而导致高昂的计算成本。此外,它没有考虑原子信息,这使得直接将 PDD 应用于晶体材料性质预测任务具有挑战性。为了解决这些挑战,我们首次提出了原子加权成对距离分布 (WPDD) 和晶胞成对距离分布 (UPDD),并将它们结合到多边晶体图的构建中。在此基础上,我们进一步开发了 WPDDFormer 和 UPDDFormer,这是一种使用 WPDD 和 UPDD 晶体图构建的图变换器架构。我们证明了该方法即使在原子位置发生轻微扰动的情况下也能保持晶体图的连续性和完整性。