近年来,扩散模型在生成新颖分子方面展现出非凡的潜力。这些模型可以通过两种方式进行引导:(i)显式地,通过代表条件的附加特征,或(ii)隐式地,使用属性预测器。然而,训练属性预测器或条件扩散模型需要大量标记数据,并且在现实世界应用中本质上具有挑战性。我们提出了一种新方法,通过利用量子化学领域的知识作为非可微分预言机来引导无条件扩散模型,从而减轻了获取大型标记数据集的局限性。与依赖神经网络不同,预言机以估计梯度形式提供准确的引导,使扩散过程能够从量子化学指定的条件分布中采样。我们表明,这会导致更精确地生成新颖且稳定的分子结构。我们的实验表明,我们的方法:(1)显着降低原子力,在用于稳定性优化时增强了生成分子的有效性;(2)与扩散模型中的显式和隐式引导兼容,能够联合优化分子性质和稳定性;(3)有效地推广到超出稳定性优化的分子优化任务。
用于计算用户表示的深度学习模型日益复杂,这带来了巨大的挑战,尤其是在计算资源有限且服务等级协议 (SLA) 严格的情况下。以往的研究工作主要集中在优化模型推理,但忽略了一个关键问题:在大型社交网络中,是否需要对每个广告请求执行用户模型推理?为了解决这个问题和这些挑战,我们首先分析了 Meta 的用户访问模式,发现大多数用户模型推理发生在很短的时间内。这一观察揭示了模型复杂性、嵌入新鲜度和服务 SLA 之间的三角关系。基于此洞察,我们设计、实现并评估了 ERCache,这是一种针对社交网络广告推荐系统中大规模用户表示的有效且稳健的缓存框架。ERCache 将缓存分为直接和故障转移类型,并为每个模型应用自定义设置和驱逐策略,有效地平衡了模型复杂性、嵌入新鲜度和服务 SLA,即使考虑到缓存引入的陈旧性。ERCache 已在 Meta 部署超过六个月,支持 30 多个排名模型,同时有效地节省了计算资源并符合服务 SLA 要求。
本文介绍了双向聚类MPPI (BiC-MPPI) 算法,这是一种新颖的轨迹优化方法,旨在增强模型预测路径积分 (MPPI) 框架中的目标导向引导。BiC-MPPI 整合了双向动力学近似和一种新的引导成本机制,从而提高了轨迹规划和目标达成性能。通过利用正向和反向展开,双向方法确保了初始状态和终端状态之间有效的轨迹连接,而引导成本则有助于发现动态可行的路径。实验结果表明,BiC-MPPI 在 2D 和 3D 环境中均优于现有的 MPPI 变体,在针对自主导航的修改版 BARN 数据集上进行了 900 次模拟,实现了更高的成功率和具有竞争力的计算时间。
数据和模型异构性是异构联邦学习 (HtFL) 的两个核心问题。在模型架构异构的场景中,聚合模型参数变得不可行,导致使用原型(即类别代表特征向量)进行聚合和引导。然而,在与全局原型对齐时,它们仍然存在额外引导目标与客户端原始局部目标之间的不匹配。因此,我们提出了一种联邦学习引导 (FedL2G) 方法,该方法以联邦方式自适应地学习引导本地训练,并确保额外的引导对客户端的原始任务是有益的。FedL2G 在理论保证下,仅使用模型参数的一阶导数高效地实现了学习引导过程,并实现了 O(1/T) 的非凸收敛速度。我们使用 14 种异构模型架构(例如,CNN 和 ViTs)在两种数据异构性和六种模型异构性设置上进行了大量实验,以证明 FedL2G 相比于六种同类方法的优越性能。
糖尿病性黄斑水肿 (DME) 是糖尿病的一种严重并发症,其特征是由于液体积聚导致视网膜中央部分增厚。DME 是糖尿病患者视力障碍的主要和常见原因。中心性 DME (ci-DME) 是疾病中风险最高的类型,因为液体延伸到靠近黄斑,而黄斑负责中央的清晰视力。早期诊断或预测 ci-DME 可以改善治疗效果。在这里,我们提出了一种集成方法,利用 DIAMOND Challenge 提供的超广角彩色眼底照片 (UWF-CFP) 图像,预测一年内 ci-DME 的发病。我们采用了各种最先进的基线分类网络,包括 ResNet、DenseNet、EfficientNet 和 VGG,旨在增强模型的鲁棒性。表现最好的模型是 Densenet 121、Resnet 152 和 EfficientNet b7,并将这些模型组合成一个明确的预测模型。最终的集成模型表现出强大的性能,在合成数据集上部署时的曲线下面积 (AUC) 为 0.7017,F1 分数为 0.6512,预期校准误差 (ECE) 为 0.2057。尽管在更现实的环境中进行训练和测试,该集成模型的性能与之前的研究相当,表明 UWF-CFP 与深度学习分类系统的结合,有可能促进 ci-DME 的早期诊断、更好的治疗决策和改善预后。
去中心化联邦学习(DFL)在训练速度、隐私保护和轻量级通信方面优于中心化联邦学习(CFL),使其成为联邦学习领域中一个有希望的替代方案。然而,由于严重的非一致性,DFL 在泛化能力方面仍然存在显著差异,例如理论理解不足和经验性能下降。在本文中,我们通过开发一种相反的前瞻增强技术(Ole)来增强 DFL 的一致性,从而产生 OledFL 来优化每个通信轮次中每个客户端的初始化,从而显著提高泛化能力和收敛速度。此外,我们在非凸设置中严格地建立了它的收敛速度,并通过一致性稳定性来刻画它的泛化界限,这为 OledFL 如何能够同时实现快速收敛速度和高泛化能力提供了具体的理由。在 CIFAR10 和 CIFAR100 数据集上使用狄利克雷分布和病态分布进行的广泛实验表明,与 DFL 中最流行的 DFedAvg 优化器相比,我们的 OledFL 可以实现高达 5% 的性能提升和 8 倍的加速。
自然语言处理和计算机视觉领域的最新进展在理解从大规模互联网数据中获取的世界的潜在动力方面展现出巨大潜力。然而,将这些知识转化为机器人系统仍然是一个开放的挑战,因为人机交互的稀缺性和缺乏大规模的真实世界机器人数据。以往的机器人学习方法,如行为克隆和强化学习,在从人类演示中或在特定环境中从头开始学习机器人技能方面表现出强大的能力。然而,这些方法通常需要特定于任务的演示或设计复杂的模拟环境,这限制了针对新环境的通用且鲁棒策略的开发。为了解决这些局限性,我们提出了一种基于代理的框架,用于将机器人策略与当前上下文相结合,并考虑当前机器人的约束及其使用视觉运动接地语言指导的环境。所提出的框架由一组为特定角色设计的对话代理组成——即高级顾问、视觉接地、监控和机器人代理。给定一个基本策略,代理在运行时共同生成指导,以将基本策略的动作分布转移到更理想的未来状态。我们证明了我们的方法可以有效地指导操作策略,以在模拟和真实世界实验中实现显著更高的成功率,而无需额外的人类演示或广泛的探索。项目视频位于 https://sites.google.com/view/motorcortex/home。
机器人系统的发展已经彻底改变了许多行业,但它们的运行通常需要专门的技术知识,限制了非专业用户的可访问性。本文介绍了 ROSA(机器人操作系统代理),这是一个由人工智能驱动的代理,它弥合了机器人操作系统 (ROS) 与自然语言界面之间的差距。通过利用最先进的语言模型并集成开源框架,ROSA 使操作员能够使用自然语言与机器人交互,将命令转换为动作,并通过定义明确的工具与 ROS 交互。ROSA 的设计模块化且可扩展,可与 ROS1 和 ROS2 无缝集成,并提供安全机制,如参数验证和约束强制,以确保安全可靠的操作。虽然 ROSA 最初是为 ROS 设计的,但它可以扩展以与其他机器人中间件一起工作,以最大限度地提高跨任务的兼容性。ROSA 通过使复杂机器人系统更易于使用和访问来增强人机交互,赋予所有专业水平的用户多模式功能,如语音集成和视觉感知。道德考虑得到了充分的解决,遵循诸如阿西莫夫机器人三定律等基本原则,确保人工智能集成促进安全、透明、隐私和问责制。通过使机器人技术更易于使用和访问,ROSA 不仅提高了运营效率,而且为负责任地使用人工智能在机器人技术和未来任务操作中设定了新标准。本文介绍了 ROSA 的架构,并在 JPL 的火星场、实验室和使用三种不同机器人的模拟中展示了初始模拟操作。核心 ROSA 库以开源形式提供。
指令遵循是大型语言模型 (LLM) 的一项关键能力。然而,最近的研究表明,LLM 在处理包含多个约束的指令时往往会遇到困难(例如,要求以“幽默的语气”创建社交媒体帖子,但“不带标签”)。尽管如此,大多数评估仅关注合成数据。为了解决这个问题,我们引入了 RealInstruct,这是一个旨在评估 LLM 遵循真实世界多约束指令能力的基准,它利用了真实用户向 AI 助手提出的查询。我们还研究了基于模型的评估作为一种成本效益高的替代方案,用于为这项任务进行人工标注。我们的研究结果表明,即使是专有的 GPT-4 模型也无法满足超过 21% 的指令中的至少一个约束,这突出了最先进模型的局限性。为了解决开源模型和专有模型之间的性能差距,我们提出了分解、批评和细化 (DeCRIM) 自我校正管道,该管道增强了 LLM 遵循约束的能力。DeCRIM 通过将原始指令分解为一组约束,并使用 Critic 模型来决定何时以及在何处需要对 LLM 的响应进行细化来工作。我们的结果表明,即使在弱反馈的情况下,DeCRIM 也能将 Mistral 在 RealInstruct 上的性能提高 7.3%,在 IFEval 上的性能提高 8.0%。此外,我们证明,通过强反馈,配备 DeCRIM 的开源 LLM 在两个基准测试中都能胜过 GPT-4。