我们介绍了 LingoQA,一个针对自动驾驶视觉问答的新数据集和基准。该数据集包含 28,000 个独特的短视频场景和 419,000 个标注。在我们基准上评估最先进的视觉语言模型表明,它们的性能低于人类能力,GPT-4V 对 59.6% 的问题的回答是真实的,而人类则达到了 96.6%。为了评估,我们提出了一种真实性分类器,称为 Lingo-Judge,它与人类评估的 Spearman 相关系数达到 0.95,超过了现有的技术,如 METEOR、BLEU、CIDEr 和 GPT-4。我们建立了一个基线视觉语言模型,并进行了广泛的消融研究以了解其性能。我们发布了我们的数据集和基准,作为自动驾驶视觉语言模型的评估平台。
标准操作规程 (SOP) 基于视频演示,为业务软件工作流程定义了低级别的、分步的书面指南。SOP 是实现端到端软件工作流程自动化的关键步骤。手动创建 SOP 可能非常耗时。大型视频语言模型的最新进展为通过分析人类演示的录音来实现 SOP 生成自动化提供了可能性。然而,当前的大型视频语言模型在零样本 SOP 生成方面面临挑战。我们探索了视频语言模型的上下文学习用于 SOP 生成。我们报告说,上下文学习有时有助于视频语言模型进行 SOP 生成。然后,我们提出了一种上下文集成学习,以进一步增强模型在 SOP 生成方面的能力。
作为大型语言模型 (LLM) 的基础,自注意力模块面临着时间和内存复杂度与序列长度成二次方增长的挑战。FlashAttention 通过利用 GPU 内存层次结构来加速注意力计算并减少其内存使用。一个很有前景的研究方向是将 FlashAttention 与量化方法相结合。本文介绍了 INT-FlashAttention,这是第一个与 FlashAttention 正向工作流程兼容的 INT8 量化架构,它显著提高了 FlashAttention 在 Ampere GPU 上的推理速度。我们使用全 INT8 激活和通用矩阵乘法 (GEMM) 内核实现了 INT-FlashAttention 原型,使其成为第一个具有全 INT8 输入的注意力算子。作为一种通用的令牌级训练后量化框架,INT-FlashAttention 也兼容其他数据格式,例如 INT4 等。实验结果表明,与使用 FP16 和 FP8 数据格式的标准 FlashAttention 相比,INT-FlashAttention 的推理速度提高了 72%,量化误差减少了 82%。
本文探究了 Transformer 架构中是否存在 OCR 敏感神经元,以及它们对历史文献命名实体识别 (NER) 性能的影响。通过分析神经元对干净文本和噪声文本输入的激活模式,我们识别并中和了 OCR 敏感神经元,从而提高了模型性能。基于两个开放访问的大型语言模型 (Llama2 和 Mistral),实验结果证明了 OCR 敏感区域的存在,并展示了在历史报纸和古典注释上 NER 性能的提升,突出了有针对性的神经元调节在提高模型对噪声文本性能方面的潜力。
本白皮书初步提出了一种用于深度学习的新型 8 位浮点数据格式 HiFloat8(简称 HiF8)。HiF8 具有渐进精度。对于正常值的编码,它提供了 7 个指数值和 3 位尾数、8 个指数值和 2 位尾数,以及 16 个指数值和 1 位尾数。对于非规格化值的编码,它将动态范围扩展了 7 个额外的 2 的幂,从 31 到 38 个二进制位(注意 FP16 覆盖了 40 个二进制位)。同时,HiF8 对所有特殊值进行编码,除了正零和负零,它们只用一个位模式表示。由于在精度和动态范围之间取得了更好的平衡,HiF8 可以同时用于 AI 训练的前向和后向传递。本文将描述 HiF8 的定义和舍入方法,以及初步的训练和推理解决方案。为了证明 HiF8 的有效性,还将展示各种神经网络的大量仿真结果,包括传统神经网络和大型语言模型(LLMs)。
心内超声(ICE)是心电生理(EP)和结构性心脏病(SHD)介入治疗中不可或缺的影像学手段,它提供了来自心脏内部的实时、高分辨率视图。尽管具有这些优势,有效操控 ICE导管仍需要丰富的专业知识,这可能导致结果不一致,尤其是在经验不足的操作者中。为了应对这一挑战,我们提出了一种基于人工智能的闭环视图引导系统,该系统包含人机交互反馈,旨在帮助用户在无需专业知识的情况下完成 ICE 影像导航。我们的方法在空间坐标系中对任意视图和临床定义的 ICE 视图之间的相对位置和方向向量进行建模,指导用户如何操控 ICE 导管,以随着时间的推移从当前视图过渡到所需视图。该系统在闭环配置下运行,持续预测和更新必要的导管操作,确保与现有临床工作流程无缝集成。该系统在基于模拟的评估中证明了其有效性,在 6532 个测试数据集上获得了 89% 的成功率,突出了其在提高 ICE 影像程序的准确性和效率方面的潜力。
人工智能代理在与人类用户和工具的交互中越来越自主,这导致了交互安全风险的增加。我们提出了HAICOSYSTEM,一个框架,用于在多样化和复杂的社会交互中检查人工智能代理的安全性。HAICOSYSTEM 具有一个模块化的沙箱环境,模拟人类用户与人工智能代理之间的多轮交互,其中人工智能代理配备了各种工具(例如,患者管理平台)来应对不同的场景(例如,用户试图访问其他患者的资料)。为了检查这些交互中人工智能代理的安全性,我们开发了一个全面的多维评估框架,该框架使用涵盖操作、内容相关、社会和法律风险的指标。通过基于七个领域(例如,医疗保健、金融、教育)的 92 个场景运行 1840 次模拟,我们证明了 HAICOSYSTEM 可以模拟现实的用户-AI 交互以及 AI 代理的复杂工具使用。我们的实验表明,最先进的 LLM,无论是专有的还是开源的,在超过 50% 的情况下都存在安全风险,并且模型在与模拟的恶意用户交互时通常表现出更高的风险。我们的发现突出了构建能够安全地进行复杂交互的代理的持续挑战,特别是在面对恶意用户时。为了促进人工智能代理安全生态系统的发展,我们发布了一个代码平台,允许从业人员创建自定义场景,模拟交互,并评估其代理的安全性与性能。
大型语言模型(LLM)强大的推理能力使其在机器人任务规划领域取得了令人瞩目的成果。然而,现有的基于LLM的方法主要集中在简单任务上的单一或多个同质机器人。在实际应用中,复杂的长时程任务往往需要多个异质机器人的协作,尤其是在更复杂的动作空间中,这使得这些任务更加困难。为此,我们提出了COHERENT,一个新颖的基于LLM的异质多机器人系统协作任务规划框架,包括四旋翼无人机、机器狗和机械臂。具体而言,我们设计了一种提案-执行-反馈-调整(PEFA)机制,用于分解和分配各个机器人的动作,其中一个集中的任务分配器提出任务规划提案,将复杂的任务分解为子任务,然后将子任务分配给机器人执行器。每个机器人执行器选择一个可行的动作来实现分配的子任务,并将自我反思反馈报告给任务分配器以进行计划调整。PEFA循环持续进行,直到任务完成。此外,我们创建了一个具有挑战性的异质多机器人任务规划基准,包含100个复杂的长时程任务。实验结果表明,我们的工作在成功率和执行效率方面远远超过了以前的方法。实验视频、代码和基准已发布在https://github.com/MrKeee/COHERENT。
自 2022 年 11 月 ChatGPT 发布以来,大型语言模型 (LLM) 取得了相当大的成功,包括在开源社区中,许多开放权重模型可用。然而,部署此类服务的先决条件通常未知,并且难以提前评估。为了促进这一过程,我们在波尔多大学的 INRIA 中心进行了大量测试。在本文中,我们提出了一种对不同大小的几个模型(主要是 Mistral 和 LLaMa)性能的比较,这些模型取决于可用的 GPU,使用 vLLM,这是一个旨在优化这些模型推理的 Python 库。我们的结果为希望部署 LLM 的私人和公共团体提供了有价值的信息,使他们能够根据其可用硬件评估不同模型的性能。因此,这项研究有助于促进这些大型语言模型在各种应用领域的采用和使用。
扩散模型在各种图像生成任务中展现出优异的性能,但其巨大的计算成本和内存占用阻碍了其在现实世界场景中的低延迟应用。量化是一种很有前景的压缩和加速模型的方法。然而,由于扩散模型中激活值的范围广泛且随时间变化,现有的方法无法在低比特量化中同时保持精度和效率。为了解决这个问题,我们提出了 DilateQuant,一个针对扩散模型的全新量化框架,它能够提供可比的精度和高效率。具体来说,我们敏锐地意识到许多未饱和的通道内权重,这些权重可以巧妙地利用,以在不增加计算成本的情况下减少激活值的范围。基于这一洞察,我们提出了权重膨胀 (WD),它通过数学等效缩放将未饱和的通道内权重最大限度地膨胀到一个约束范围内。WD 无成本地将激活量化误差吸收进权重量化。激活值的范围减小,这使得激活量化变得容易。权重的范围保持不变,这使得模型在训练阶段易于收敛。考虑到时间网络导致激活值随时间变化,我们设计了一种时间并行量化器 (TPQ),它设置时间步长量化参数并支持不同时间步长的并行量化,显著提高了性能并减少了时间成本。为了进一步提高性能并保持效率,我们引入了块级知识蒸馏 (BKD),以在块级上将量化模型与全精度模型对齐。时间步长量化参数和权重的同步训练最大限度地减少了所需时间,而更短的反向传播路径减少了量化过程的内存占用。