当前社会面临的挑战超出了人类单独或集体行动的能力。随着人工智能的发展,其在人类集体中的作用将从辅助工具转变为参与成员。人类和人工智能拥有互补的能力,共同能够超越单独的人类或人工智能的集体智慧。然而,人机系统中的交互本质上是复杂的,涉及错综复杂的流程和相互依赖关系。本综述结合复杂网络科学的视角,对人机集体智慧的多层表示进行概念化,包括认知层、物理层和信息层。在这个多层网络中,人类和人工智能代理表现出不同的特征;人类从表面层到深层属性的多样性各不相同,而人工智能代理的功能和拟人化程度各不相同。我们探讨了代理的多样性和交互如何影响系统的集体智慧,并分析了人工智能增强型集体智慧的现实案例。最后,我们考虑了该领域潜在的挑战和未来的发展。
量子图像处理 (QIP) 旨在利用量子计算的优势来处理和分析图像。然而,QIP 面临着两个挑战:量子比特的限制和量子机器中噪声的存在。在本研究中,我们提出了一种新方法来解决 QIP 中的噪声问题。通过训练和使用机器学习模型来识别和纠正量子处理图像中的噪声,我们可以补偿机器造成的噪声,并获得与经典计算机以更高效率执行的处理结果相似的结果。该模型通过学习一个包含来自公开数据集的现有处理图像和量子处理图像的数据集进行训练。该模型将能够为我们提供每个像素的置信度水平及其潜在的原始值。为了评估该模型在补偿 QIP 中的丢失和退相干方面的准确性,我们使用三个指标对其进行了评估:峰值信噪比 (PSNR)、结构相似度指数 (SSIM) 和平均意见得分 (MOS)。此外,我们还讨论了模型在不同领域的适用性以及与其他方法相比的成本效益。
最先进的生成式大型语言模型(LLM)的开发过度依赖于以英语为中心的标记器、词汇和预训练数据。尽管某些 LLM 具有多语言能力,但最近的研究表明,它们在生成非英语文本时的推理效率会下降。这会导致推理时间和成本增加。跨语言词汇适应(CVA)方法被提出用于将模型适应目标语言,旨在提高下游性能。然而,这些方法对提高生成式 LLM 推理效率的有效性尚未得到探索。在本文中,我们对五种 CVA 方法在四种生成式 LLM(包括单语和多语模型)中跨四种类型学上不同的语言和四种自然语言理解任务进行了实证研究。我们发现,CVA 显著促进了 LLM 推理速度提高,最高可达 271.5%。我们还表明,适应在更平衡的多语言数据上预训练的 LLM 会导致下游性能与原始模型相当。
基于模型的离线优化旨在针对学习到的代理模型进行优化,而无需在优化过程中查询真实的预言函数。此类任务通常出现在蛋白质设计、机器人技术和临床医学中,因为评估预言函数的成本过高。然而,在离线优化轨迹中经常遇到不准确的代理模型预测。为了解决这一限制,我们提出了一种使用自适应源批评正则化 (aSCR) 的生成对抗模型优化方法,这是一种与任务和优化器无关的框架,用于将优化轨迹约束在代理函数可靠的设计空间区域。我们提出了一种计算上易于处理的算法来动态调整该约束的强度,并展示了在离线生成设计任务套件中,将 aSCR 与标准贝叶斯优化相结合如何优于现有方法。我们的代码可在 https://github.com/michael-s-yao/gabo 获取。
文本到图像扩散模型在灵活且逼真的图像合成方面展现出前所未有的能力。然而,这些模型依赖于耗时的采样过程,这促使人们试图减少其延迟。在提高效率方面,研究人员通常使用原始扩散模型来训练一个额外的网络,专门用于快速图像生成。相比之下,我们的方法旨在直接减少延迟,无需任何重新训练、微调或知识蒸馏。特别地,我们发现注意力图的重复计算成本高昂且冗余,因此建议在采样过程中重复使用它们。我们特定的重复使用策略基于 ODE 理论,这意味着注意力图越晚被重复使用,最终图像的失真就越小。我们通过实验证明了这些重复使用策略与延迟相当的少步采样过程的比较,发现重复使用生成的图像更接近原始高延迟扩散模型生成的图像。
大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
深度学习模型通常被部署到训练过程可能没有意识到的下游任务中。例如,仅训练以实现准确预测的模型可能难以在下游任务中表现良好,因为看似微小的预测误差可能会导致巨大的任务误差。标准的端到端学习方法是使任务损失可微分,或者引入一个可微分的代理,模型可以对其进行训练。在这些设置中,需要仔细平衡任务损失和预测损失,因为它们可能具有冲突的目标。我们建议将任务损失信号比模型参数更深入一层,并使用它来学习模型训练所用损失函数的参数,这可以通过在预测空间中学习度量来实现。这种方法不会改变最佳预测模型本身,而是改变模型学习,以强调对下游任务重要的信息。这使我们能够实现两全其美:在原始预测空间中训练的预测模型,同时对所需的后续任务也很有价值。我们通过在两种主要设置中进行的实验验证了我们的方法:1)涉及投资组合优化和预算分配的决策重点模型学习场景,以及 2)在具有干扰状态的嘈杂环境中的强化学习。用于复制我们实验的源代码可在 https://github.com/facebookresearch/taskmet 获取。
深度学习 (DL) 作业使用多维并行性,即结合数据、模型和流水线并行性,以高效地利用大型 GPU 集群。长时间运行的作业可能会遇到其 GPU 分配的变化:(i) 训练期间的资源弹性会添加或删除 GPU;(ii) 硬件维护可能需要在不同的 GPU 上重新部署;以及 (iii) GPU 故障迫使作业使用更少的设备运行。当前的 DL 框架将作业绑定到一组 GPU,因此缺乏对这些场景的支持。特别是,它们无法以高效且与模型无关的方式更改已运行作业的多维并行性。
我们描述了 Scalai,一个用于 DL 系统的状态管理库,它使作业能够在运行时更新 GPU 分配后动态更改其并行性。Scalai 通过一种新的抽象,可并行张量集合 (PTC),来实现这一点,该集合在训练期间将作业状态外部化。在 GPU 更改后,Scalai 使用 PTC 来转换作业状态:PTC 在数据并行性下重新分配数据集状态,并通过虚拟文件系统将其公开给 DL 工作器;并且 PTC 获取模型状态作为分区的检查点,并将其转换为反映新的并行化配置。为了提高效率,Scalai 与工作器之间的数据移动最少,并行执行 PTC 转换。我们的实验表明,Scalai 使 DL 作业能够以低开销支持动态并行化。
在指纹匹配中,固定长度描述符通常比细节点集更有效,但识别精度不如后者。尽管近年来基于深度学习的固定长度描述符取得了很大进展,但它们在处理不完整或部分指纹、各种指纹姿态和大量背景噪声时往往力不从心。在本文中,我们提出了一种名为固定长度密集描述符 (FDD) 的三维表示,用于高效的指纹匹配。FDD 具有良好的空间特性,能够捕捉原始指纹的空间关系,从而提高可解释性和鲁棒性。我们在各种指纹数据集上的实验表明,FDD 优于其他固定长度描述符,特别是在匹配不同区域的指纹、跨模态指纹匹配和带有背景噪声的指纹匹配方面。
我们介绍了 Ego-Exo4D,一个多样化、大规模的多模态多视角视频数据集和基准挑战。Ego-Exo4D 以同时捕获的自我中心和异中心视频为中心,涵盖熟练的人类活动(例如,运动、音乐、舞蹈、自行车修理)。来自全球 13 个城市的 740 名参与者在 123 种不同的自然场景环境中执行这些活动,产生了从 1 到 42 分钟不等的长时段捕获,总共 1,286 小时的视频。数据集的多模态特性前所未有:视频附带多声道音频、眼球注视、3D 点云、相机姿态、IMU 和多个配对的语言描述——包括教练和老师做出的新型“专家评论”,并针对熟练活动领域量身定制。为了推动对熟练人类活动的第一人称视频理解的前沿研究,我们还提供了一套基准任务及其注释,包括细粒度活动理解、熟练度估计、跨视角转换和 3D 手/身体姿态。所有资源均开源,以推动社区中的新研究。项目页面:http://ego-exo4d-data.org/