在高风险的人工智能系统中,可解释性是人们对其信任的关键。然而,几乎所有当前人工智能系统都基于机器学习,它们通常是黑盒,无法解释。可解释人工智能 (XAI) 运动通过重新定义“解释”来解决这个问题。以人为中心的可解释人工智能 (HCXAI) 运动确定了用户的解释需求,但由于其对机器学习的承诺,无法满足这些需求。为了实现实际人员在关键领域运营所需的解释类型,我们必须重新思考如何处理人工智能。我们描述了一种开发认知代理的混合方法,该方法使用基于知识的基础设施,并在适用时辅以通过机器学习获得的数据。这些代理将作为人类的助手,人类将对人机团队的决策和行动承担最终责任。我们使用演示系统的内部面板来说明此类代理的解释潜力,在该系统中,模拟机器人团队协同完成人类分配的搜索任务。
深度学习和物联网的进步促进了各种人类感知应用的发展。然而,受多种因素或环境影响的人类感知的不同模式给通用神经网络模型的性能带来了挑战,因为自然分布会发生变化。为了解决这个问题,个性化定制了适合单个用户的模型。然而,大多数个性化研究忽略了感官数据中跨环境的个体用户异质性,限制了用户内的泛化能力。这种限制在临床应用中尤为关键,因为有限的数据可用性阻碍了泛化和个性化。值得注意的是,由于外部因素(如治疗进展),用户内的感知属性预计会发生变化,进一步加剧了挑战。这项工作介绍了 CRoP,这是一种使用现成的预训练模型和剪枝的新型静态个性化方法,旨在优化个性化和泛化。CRoP 在四个人类感知数据集(包括两个来自现实世界医疗领域的数据集)中展示了优异的个性化有效性和用户内鲁棒性,突出了其实际和社会影响。此外,为了支持 CRoP 的泛化能力和设计选择,我们通过梯度内积分析、消融研究以及与最先进基线的比较提供了实证依据。
为了减轻人工智能系统带来的风险,我们需要准确评估其能力。在能力很少展现的情况下,这一点尤其困难。Phuong 等人提出了两种方法来获得对人工智能代理成功完成给定任务概率的更好估计。里程碑方法将任务分解成子任务,旨在提高整体成功率估计,而专家最佳 N 方法利用人类指导作为模型独立性能的代理。
我们对这些方法作为蒙特卡罗估计量的分析表明,虽然两者都与朴素的蒙特卡罗抽样相比有效地减少了方差,但也引入了偏差。实验结果表明,由于其约束性假设,里程碑方法低估了许多现实世界任务的真实解决率。专家最佳 N 方法在所有任务中表现出更严重的低估,这归因于一个固有的有缺陷的重新加权因子。为了提高对人工智能代理在困难任务上的能力估计的准确性,我们建议未来的工作应利用关于蒙特卡罗估计量的丰富文献。
多模态大型语言模型(MLLMs)在广泛的领域展现出卓越的性能,并且越来越重视增强其在各种模态下对未见任务的零样本泛化能力。指令微调已成为一种有效的策略,通过对预训练模型进行多模态任务的微调来实现零样本泛化。随着 MLLMs 规模的不断扩大,参数高效的微调变得越来越重要。然而,大多数现有的参数高效方法只关注单一模态,并且在微调过程中往往忽略了多模态特征。在这项工作中,我们提出了一种新颖的多模态提示微调 (M$^2$PT) 方法,用于高效地对 MLLMs 进行指令微调。M$^2$PT 在微调过程中有效地将视觉提示和文本提示分别集成到视觉编码器和语言处理器中,从而促进跨模态特征的提取和对齐。在各种多模态评估数据集上的实证结果表明,与几种最先进的基线相比,我们的方法具有更优越的性能。一组全面的消融研究验证了我们的提示设计和方法的效率。
本文介绍了华为翻译服务中心(HW-TSC)在第 20 届中国机器翻译大会(CCMT 2024)机器翻译任务中的参赛方案。我们参加了双语机器翻译任务和多领域机器翻译任务。对于这两个翻译任务,我们基于深度 Transformer-big 架构,使用正则化 dropout、双向训练、数据多样化、正向翻译、反向翻译、交替训练、课程学习和转导集成学习等训练策略来训练神经机器翻译(NMT)模型。此外,为了探索大型语言模型(LLM)是否可以帮助提高 NMT 系统的翻译质量,我们使用监督微调训练 llama2-13b 作为自动后期编辑(APE)模型,以改善 NMT 模型在多领域机器翻译任务上的翻译结果。通过使用这些多方面的策略,我们的参赛方案在最终评估中取得了具有竞争力的结果。
我们介绍了 ACME:一款面向欧洲寻求庇护的移民的聊天机器人。ACME 依赖于计算论证,旨在帮助移民确定他们可以申请的最高级别的保护。这将有助于减少领土委员会、法院和支持庇护申请人的慈善组织的负担,从而实现更可持续的移民。我们描述了背景情况、系统架构、底层技术以及用于验证该工具的案例研究。
根因分析(RCA)对于提升复杂系统的可靠性和性能至关重要。然而,该领域的发展受到缺乏针对RCA的大规模开源数据集的阻碍。为了弥合这一差距,我们引入了LEMMA-RCA,这是一个为跨多个领域和模态的各种RCA任务而设计的大型数据集。LEMMA-RCA 涵盖了来自 IT 和 OT 操作系统的各种真实世界故障场景,包括微服务、水分配和水处理系统,涉及数百个系统实体。我们通过在各种设置下测试八个基线方法在该数据集上的性能来评估 LEMMA-RCA 的质量,包括离线和在线模式以及单模态和多模态。我们的实验结果证明了 LEMMA-RCA 的高质量。该数据集可在 https://lemma-rca.github.io/ 上公开获取。
我们提出了一种名为PhysGen的新型图像到视频生成方法,该方法将单张图像和输入条件(例如,施加在图像中物体上的力矩和力)转换为逼真、物理上合理且时间上一致的视频。我们的关键见解是将基于模型的物理模拟与数据驱动的视频生成过程相结合,从而实现可信的图像空间动力学。我们系统核心包含三个主要组件:(i)一个图像理解模块,有效地捕获图像的几何形状、材质和物理参数;(ii)一个图像空间动力学模拟模型,利用刚体物理学和推断参数来模拟逼真的行为;以及(iii)一个基于图像的渲染和细化模块,利用生成视频扩散来生成具有模拟运动的逼真视频素材。生成的视频在物理和外观上都非常逼真,甚至可以精确控制,通过定量比较和全面的用户研究,展示了优于现有数据驱动图像到视频生成作品的结果。PhysGen生成的视频可以用于各种下游应用,例如将图像转换为逼真的动画,或者让用户与图像交互并创建各种动态。项目页面:https://stevenlsw.github.io/physgen/
状态空间模型 (SSM) 与 Transformer 中的注意力模块相比,具有线性计算复杂度的优势,已被用作一种新型强大的视觉基础模型应用于视觉任务。受视觉 Transformer (ViT) 中最终预测仅基于一小部分信息量最大的 token 的观察结果启发,我们采取了通过基于 token 的剪枝来提高 SSM 基于视觉模型效率的新方法。然而,现有的为 ViT 设计的 token 剪枝技术的直接应用无法提供良好的性能,即使经过广泛的微调。为了解决这个问题,我们重新审视了 SSM 的独特计算特性,并发现简单的应用会破坏顺序 token 位置。这一见解促使我们设计了一种专门针对基于 SSM 的视觉模型的新颖且通用的 token 剪枝方法。我们首先介绍了一种剪枝感知的隐藏状态对齐方法,以稳定剩余 token 的邻域,从而提高性能。此外,根据我们详细的分析,我们提出了一种适用于 SSM 模型的 token 重要性评估方法,以指导 token 剪枝。通过高效的实现和实用的加速方法,我们的方法带来了实际的加速。大量的实验表明,我们的方法可以在不同任务中实现显著的计算量减少,而性能影响最小。值得注意的是,我们在 ImageNet 上获得了 81.7% 的准确率,同时将剪枝后的 PlainMamba-L3 的 FLOPs 减少了 41.6%。此外,我们的工作提供了更深入的见解,有助于理解基于 SSM 的视觉模型的行为,从而促进未来的研究。
无监督实例分割旨在不依赖人工标注数据的情况下分割图像中不同的目标实例。近年来,该领域取得了重大进展,部分原因是自监督模型(如 DINO)提供的丰富的视觉特征表示能够提供强大的局部对应关系。最近的最新方法使用自监督特征将图像表示为图,并解决广义特征值系统(即归一化割)以生成前景掩码。虽然这种策略有效,但它受到其随之而来的计算需求的限制,导致推理速度缓慢。在本文中,我们提出了一种提示和合并 (ProMerge) 方法,该方法利用自监督视觉特征来获取初始的补丁分组,并应用策略性合并到这些片段中,并辅以复杂的基于背景的掩码修剪技术。ProMerge 不仅产生了具有竞争力的结果,而且与基于归一化割的最新方法相比,还显著缩短了推理时间。此外,当使用我们的掩码预测作为伪标签训练目标检测器时,由此产生的检测器在各种具有挑战性的实例分割基准测试中超越了当前领先的无监督模型。