数据准备是任何大型语言模型 (LLM) 开发的第一步,也是非常重要的一步。本文介绍了一个易于使用、可扩展且可灵活扩展的开源数据准备工具包,称为数据准备套件 (DPK)。DPK 的架构设计旨在使用户能够根据需要扩展其数据准备工作。借助 DPK,他们可以在本地机器上准备数据,或轻松扩展到在具有数千个 CPU 内核的集群上运行。DPK 附带了一套高度可扩展且可扩展的模块,用于转换自然语言和代码数据。如果用户需要额外的转换,他们可以使用 DPK 对转换创建的大量支持轻松地进行开发。这些模块可以独立使用或通过管道连接以执行一系列操作。在本文中,我们描述了 DPK 架构,并展示了其从小型规模到大量 CPU 的性能。DPK 中的模块已被用于准备 Granite 模型 [1] [2]。我们相信 DPK 对 AI 社区来说是一个宝贵的贡献,它可以轻松地准备数据以提高其 LLM 模型的性能,或使用检索增强生成 (RAG) 微调模型。
多模态大型语言模型 (MLLMs) 的快速发展为人工智能带来了重大进步,显著增强了理解和生成多模态内容的能力。虽然之前的研究主要集中在模型架构和训练方法上,但对用于评估这些模型的基准的深入分析仍未得到充分探索。本综述通过系统地回顾 211 个基准来解决这一差距,这些基准评估了 MLLMs 在四个核心领域的表现:理解、推理、生成和应用。我们对跨不同模态的任务设计、评估指标和数据集构建进行了详细分析。我们希望本综述能够通过全面概述基准实践并确定未来工作的有希望的方向,为 MLLM 研究的持续发展做出贡献。相关 GitHub 仓库收集了最新的论文。
语音记录越来越多地用于疾病检测和监测,引发了隐私问题。除了加密之外,还可以通过扰动、解纠缠和重新合成等方法来保护语音,这些方法可以消除说话者的敏感信息,保留医学分析所需的信息。为了开发这类隐私保护方法,需要明确且系统地规定关于医疗环境和医护人员需求的假设。本文提出了一种使用场景方案,该方案包含攻击者模型和保护者模型,攻击者模型描述了必须防御的攻击者,保护者模型描述了防御策略。我们讨论了该方案与先前关于语音隐私工作的联系。最后,我们提供了一个具体的使用场景示例和一组实验,这些实验旨在保护说话者数据免受性别推断攻击,同时保持帕金森病检测的效用。
在使用大型语言模型 (LLM) 的检索增强生成 (RAG) 任务中,检索信息的质量对最终输出至关重要。本文介绍了 IRSC 基准,用于评估嵌入模型在多语言 RAG 任务中的性能。该基准涵盖五个检索任务:查询检索、标题检索、段落部分检索、关键字检索和摘要检索。我们的研究解决了当前在 RAG 场景中缺乏对嵌入模型的全面测试和有效比较方法的问题。我们引入了新的指标:语义理解相似度指数 (SSCI) 和检索能力竞争指数 (RCCI),并评估了 Snowflake-Arctic、BGE、GTE 和 M3E 等模型。我们的贡献包括:1) IRSC 基准,2) SSCI 和 RCCI 指标,以及 3) 对嵌入模型跨语言局限性的见解。IRSC 基准旨在提高对 RAG 任务中准确检索系统的理解和开发。所有代码和数据集均可在以下地址获取:https://github.com/Jasaxion/IRSC_Benchmark。
我们对 ChatGPT 的四个版本进行了受控实验偏差审计,要求它们推荐新员工薪资谈判的开价。我们向每个版本提交了 98,800 个提示,系统地改变了员工的性别、大学和专业,并测试了谈判双方的声音:员工和雇主。我们发现,ChatGPT 作为一种多模型平台,不够健壮和一致,无法信赖于此类任务。我们观察到,在所有四个模型中,当改变性别时,薪资报价存在统计学上的显著差异,尽管差距小于其他测试属性。最大的差距在于不同的模型版本以及员工和雇主之间的声音提示。我们还观察到,当改变大学和专业时,存在很大的差距,但许多偏差在不同的模型版本中并不一致。我们测试了虚构的和欺诈性的大学,发现跨案例和模型版本的结果差异很大。我们对人工智能/机器学习公平性文献做出了更广泛的贡献。我们的场景和实验设计在关键方面不同于主流人工智能/机器学习审计工作。偏差审计通常测试受保护群体(如性别)的歧视,而我们将其与测试大学和专业等非受保护群体进行对比。要求谈判建议包括一个人在谈判中应该有多强势,相对于已知的经验性薪资分布和规模,这是一个深度语境化和个性化的任务,没有客观的真实情况来验证。这些结果对我们测试的特定模型版本和 ChatGPT 作为持续开发的多模型平台提出了担忧。我们的认识论不允许我们明确地证明这些模型在我们测试的属性上是普遍有偏差还是无偏差,但我们的研究对利益相关者进一步调查提出了担忧。
推理时间技术正在成为提高大型语言模型 (LLM) 能力的有效工具。然而,对于开发将推理时间技术与一个或多个 LLM 相结合的系统的最佳实践仍然缺乏了解,面临的挑战包括:(1) 有效地分配推理计算预算,(2) 了解推理时间技术的不同组合之间的相互作用及其对下游性能的影响,以及 (3) 在模型选择、推理时间技术及其组合的巨大空间中进行有效搜索。为了应对这些挑战,我们引入了 Archon,这是一个用于设计推理时间架构的自动化框架。Archon 定义了一个可扩展的设计空间,涵盖了诸如生成集成、多重采样、排名、融合、批评、验证和单元测试等方法。然后,它将选择和组合 LLM 和推理时间技术的问题转换为超参数优化目标。为了优化此目标,我们引入了自动推理时间架构搜索 (ITAS) 算法。给定目标基准、推理计算预算和可用的 LLM,ITAS 输出优化的架构。我们在广泛的指令遵循和推理基准上评估了 Archon 架构,包括 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH 和 CodeContests。我们表明,由 Archon 自动设计的推理时间架构在这些基准上优于 GPT-4o 和 Claude 3.5 Sonnet 等强大的模型,使用所有来源模型和开源模型分别实现了平均 15.1 和 11.2 个百分点的提升。我们将在 Github 上公开发布我们的代码和数据集:https://github.com/ScalingIntelligence/Archon。
大型语言模型(LLM)如 GitHub Copilot 和 ChatGPT 已成为强大的代码生成工具,显著提高了生产力并加速了软件开发。然而,现有的基准测试主要集中在通用代码生成,而没有考虑面向 API 的代码生成,即生成调用特定库中的 API 的代码。鉴于对面向 API 的代码生成的需求不断增长,迫切需要一种系统化和自动化的方法来评估 LLM 在面向 API 的代码生成方面的能力。为了填补这一空白,我们提出了 AutoAPIEval,一个轻量级且自动化的框架,旨在评估 LLM 在面向 API 的代码生成方面的能力。我们的框架适用于任何提供 API 文档的库,并专注于两个单元任务:API 推荐和代码示例生成,以及四个指标来评估生成的 API 和代码示例,例如任务 1 中错误 API 推荐的比例,以及任务 2 中没有调用特定 API 的代码示例和不可编译/不可执行的代码示例的比例。此外,我们对三个 LLM(ChatGPT、MagiCoder 和 DeepSeek Coder)和 Java 运行时环境 8 进行了案例研究,以证明该框架的有效性。我们的发现表明 LLM 在不同任务中的性能存在很大差异,ChatGPT 更好地遵循指令,而在代码示例生成方面与同行(即 MagiCoder 和 DeekSeek Coder)具有相似的有效性。我们还确定了与代码质量相关的关键因素,如 API 流行度和模型置信度,并构建了分类器,在检测错误的 API 推荐和错误的代码示例方面取得了高精度。检索增强生成提高了 LLM 生成的代码质量,尽管其有效性在不同的 LLM 中有所不同。
在工业4.0中,从海量数据中检测复杂异常是一项至关重要的任务,深度学习是解决这一问题的最佳方法。然而,现有的解决方案计算量大,需要云架构,容易出现延迟和带宽问题。本文提出了一种名为VARADE的新解决方案,它实现了一个基于变分推理的轻量级自回归框架,非常适合在边缘进行实时执行。该方法在一条试点生产线的机械臂上进行了验证,并与几种最先进的算法进行了比较,在两个不同的边缘平台上,在异常检测精度、功耗和推理频率之间取得了最佳平衡。
机器学习 (ML) 在医疗等关键领域的使用带来了风险,需要进行监管。其中一项要求是,在高风险应用中,ML 系统的决策应为人理解。 “可解释人工智能” (XAI) 领域似乎满足了这一需求。然而,以其当前形式,XAI 不适合为 ML 提供质量控制;它本身需要审查。流行的 XAI 方法无法可靠地回答有关 ML 模型、其训练数据或给定测试输入的重要问题。我们回顾了证明流行的 XAI 方法系统地将重要性归因于与预测目标无关的输入特征的结果。这限制了它们在模型和数据(不)验证、模型改进和科学发现等方面的效用。我们认为,这种局限性的根本原因是当前的 XAI 方法没有解决明确定义的问题,也没有根据解释正确性的客观标准进行评估。研究人员应首先正式定义他们打算解决的问题,然后相应地设计方法。这将导致可以从理论上验证的解释正确性概念和可以使用地面真实数据评估的解释性能客观指标。
表情符号在社交平台上已获得极大普及,成为补充或替代文本的常见手段。然而,现有的数据挖掘方法通常要么完全忽略表情符号,要么将它们简单地视为普通 Unicode 字符,这可能限制了模型理解表情符号中丰富语义信息以及表情符号与文本之间交互的能力。因此,有必要在社交媒体数据挖掘中释放表情符号的力量。为此,我们首先构建了一个由三种类型的节点组成的异构图,即帖子节点、单词节点和表情符号节点,以改进帖子中不同元素的表示。边也经过精心定义,以模拟这三种元素如何相互作用。为了促进帖子、单词和表情符号节点之间信息的共享,我们提出了一种文本和表情符号联合建模的图预训练框架,该框架包含两个图预训练任务:节点级图对比学习和边级链接重建学习。在小红书和 Twitter 数据集上进行的广泛实验,以及两种类型的下游任务,证明了我们的方法比以前强大的基线方法有了显著的改进。