本文提出一个用于评估和验证生成式语言模型(GLM),特别是用于银行等高风险领域的检索增强生成(RAG)系统的全面框架。由于GLM输出开放且质量评估主观,因此其评估极具挑战性。利用RAG系统基于预定义文档集合生成响应的结构化特性,我们提出了人类校准自动化测试(HCAT)框架。HCAT 集成了 a) 基于分层抽样的自动化测试生成;b) 基于嵌入的度量方法,用于对功能性、风险和安全属性进行可解释性评估;以及 c) 两阶段校准方法,通过概率校准和一致性预测将机器生成的评估与人工判断对齐。此外,该框架还包括鲁棒性测试,以评估模型在对抗性、分布外和不同输入条件下的性能,并使用边缘分析和双变量分析识别目标弱点,以查明需要改进的具体领域。这个经过人类校准的多层评估框架提供了一种可扩展、透明且可解释的GLM评估方法,为在准确性、透明度和法规遵从性至关重要的应用中部署GLM提供了实用可靠的解决方案。
超声成像因其无创性和实时性而在临床诊断中得到广泛应用。然而,传统的超声诊断面临着诸多局限性,包括高度依赖医生的专业知识以及图像质量欠佳,这使得图像解读变得复杂,并增加了误诊的可能性。人工智能 (AI) 已成为增强临床诊断的一种很有前景的解决方案,尤其是在检测各种生物医学成像模式中的异常方面。然而,当前用于超声成像的 AI 模型面临着严峻的挑战。首先,这些模型通常需要大量的标记医学数据,这引发了对患者隐私泄露的担忧。其次,大多数现有模型都是特定任务的,这限制了其更广泛的临床实用性。为了克服这些挑战,我们提出了 UltraFedFM,这是一种创新的隐私保护超声基础模型。UltraFedFM 使用来自 9 个国家/地区 16 家分布式医疗机构的联合学习进行协同预训练,利用包含超过 100 万张超声图像的数据集,涵盖 19 个器官和 10 种超声模式。这种广泛而多样化的数据,结合安全的训练框架,使 UltraFedFM 能够展现强大的泛化能力和诊断能力。它在疾病诊断中的受试者工作特征曲线下面积平均值为 0.927,在病灶分割中的 Dice 相似系数为 0.878。值得注意的是,UltraFedFM 超越了中级超声医生的诊断准确率,并在 8 种常见全身性疾病的联合诊断中达到了专家级超声医生的性能水平。这些发现表明,UltraFedFM 可以在保障患者隐私的同时显著增强临床诊断,标志着人工智能驱动的超声成像在未来临床应用方面取得了进步。
深度学习驱动的图像分割技术在计算机视觉领域发挥着不可或缺的作用。然而,其在实际应用中的广泛性也带来了算法可靠性方面的挑战。因此,不确定性量化受到了广泛关注,它能够表达模型的认知不足(认知不确定性)或数据模糊性(偶然不确定性),从而避免做出无知之举。由于基于卷积神经网络 (CNN) 的分割模型在高风险应用中的快速普及,大量研究成果涌现,并迅速发展成为一个独立的领域。本文对概率分割进行了全面概述,讨论了该领域进展背后的基本不确定性概念及其在各种任务中的应用。我们发现,量化偶然不确定性和认知不确定性分别近似于关于潜在变量或模型参数的贝叶斯推理。此外,关于这两种不确定性的文献都追溯到四个关键应用:(1)量化由于图像模糊而导致的标注过程中的统计不一致性;(2)将预测误差与不确定性相关联;(3)扩展模型假设空间以获得更好的泛化能力;(4)主动学习。随后,本文对每个应用中使用的数据集进行了概述,并对现有方法进行了比较。我们还重点介绍了与架构、基于不确定性的主动学习、标准化和基准测试相关的挑战,并对未来的工作提出了建议,例如基于单次前向传递的方法和能够适当利用体数据模型。
为展示量子计算的优越性,越来越大规模的超导量子计算芯片正在被设计和制造,这激发了对电子设计自动化以追求更高效和有效性的需求。然而,模拟量子系统的复杂性对量子芯片的计算机辅助设计提出了重大挑战。利用图神经网络(GNN)的可扩展性,我们在此提出了一种用于大规模超导量子电路的参数设计算法。该算法依赖于所谓的“三阶梯缩放”机制,该机制包含两个神经网络模型:一个在小规模电路中监督训练的评估器,用于应用于中规模电路;以及一个在中规模电路中无监督训练的设计器,用于应用于大规模电路。我们通过减轻量子串扰误差来演示我们的算法,量子串扰误差普遍存在,并且与超导量子电路的图结构和参数分配密切相关。同时考虑单量子比特门和双量子比特门的参数。数值结果表明,经过良好训练的设计器不仅在效率上而且在有效性上都具有显著优势,尤其是在大规模电路中。例如,在由大约 870 个量子比特组成的超导量子电路中,经过训练的设计器只需 27 秒即可完成频率设计任务,而传统的 Snake 算法则需要 90 分钟。更重要的是,使用我们的算法产生的串扰误差仅为 Snake 算法产生的串扰误差的 51%。总的来说,这项研究初步证明了将图神经网络应用于量子处理器参数设计的优势,并为电子设计自动化中大规模数值模拟具有挑战性的系统提供了见解。
大型语言模型 (LLM) 在使用链式思维推理 (CoT) 时擅长处理多跳问题(例如,“Imagine 的演唱者的配偶是谁?”),但在被迫进行内部推理(无 CoT)时却难以应对。先前关于这种差距的规模和性质的研究结果好坏参半,结论不确定。本文引入了一个受控环境来研究 LLM 中的二跳推理,其中高于机会水平的性能构成了潜在推理的无可辩驳的证据。我们对大型语言模型(包括 Llama 3 8B Instruct 和 GPT-4o)进行了微调,使其能够学习虚构事实,并证实它们能够使用 CoT 来概括这些事实并回答有关它们的二跳问题。我们发现,当事实一起出现在训练过程中或提示中时,模型可以进行潜在推理。然而,令我们惊讶的是,当学习到的事实仅出现在不同的文档中时,模型在没有 CoT 的情况下完全无法进行二跳推理,其准确率和测试损失都达到了机会水平。我们将这种完全无法组合单独学习的事实称为“二跳诅咒”。此外,我们对 9 个前沿 LLM 在真实世界的事实上进行了评估,发现模型在超过一半的问题类别中完全无法进行无 CoT 的二跳推理,而在大多数类别中使用 CoT 则保持部分成功。这些结果表明,LLM 缺乏一种独立于问题类型的通用潜在多跳推理能力。
大型语言模型(LLM)在批改学生作文这一耗时但又至关重要的教学任务中展现出潜在的解决方案。本研究评估了开源和闭源LLM在评估德语学生作文方面的性能和可靠性,并将它们的评价结果与37位教师基于10个预定义标准(例如,情节逻辑、表达)的评价结果进行了比较。我们使用五个LLM(GPT-3.5、GPT-4、o1、LLaMA 3-70B和Mixtral 8x7B)分析了来自7年级和8年级学生的20篇真实作文,旨在深入了解LLM的评分能力。闭源GPT模型在内部一致性和与人工评分的一致性方面均优于开源模型,尤其是在语言相关标准方面表现出色。新型o1模型优于所有其他LLM,其与人工评估的总体得分Spearman相关系数达到r = .74,内部一致性ICC = .80。这些发现表明,基于LLM的评估可以作为一种有用的工具,通过支持作文评估来减轻教师的工作负担,尤其是在语言相关标准方面。然而,由于这些模型倾向于给出较高的分数,因此需要进一步改进才能更好地捕捉内容质量的各个方面。
尽管深度网络在标准化视觉基准测试上的性能正在快速提升,但在现实世界的视觉任务中,它们仍然不如人类。这种看似矛盾的泛化能力不足可以通过使深度网络更像人脑来解决。虽然一些基准测试已经比较了深度网络预测人脑对自然图像反应的能力,但它们并没有捕捉到一些细微但重要的类脑涌现特性。为了解决这个问题,我们报告了几种可以用于测试深度网络的已知感知和神经涌现特性。为了评估各种设计因素如何影响类脑特性,我们系统地评估了30多个最先进的网络,这些网络具有不同的网络架构、训练数据集和训练方案。我们的主要发现如下:首先,与数据集和训练方案的变化相比,网络架构对类脑特性的影响最大。其次,网络在与人脑的一致性方面差异很大,没有哪个网络在所有方面都优于其他网络。总而言之,我们的结果通过揭示最先进的深度网络中存在的或缺乏的类脑特性,对现有的基准测试进行了补充。
我们引入了OneDiffusion,这是一个通用的、大规模的扩散模型,可以无缝支持跨各种任务的双向图像合成和理解。它能够根据文本、深度、姿态、布局和语义地图等输入进行条件生成,同时也能处理图像去模糊、超分辨率和反向过程(如深度估计和分割)等任务。此外,OneDiffusion还允许多视图生成、相机姿态估计以及使用顺序图像输入进行即时个性化。我们的模型采用了一种简单而有效的方法,在训练过程中将所有任务视为具有不同噪声尺度的帧序列,允许任何帧在推理时充当条件图像。我们的统一训练框架无需专门的架构,支持可扩展的多任务训练,并能平滑地适应任何分辨率,从而增强泛化能力和可扩展性。实验结果表明,尽管训练数据集相对较小,但在文本到图像、多视图生成、ID 保持、深度估计和相机姿态估计等生成和预测任务中,我们的模型都取得了具有竞争力的性能。我们的代码和检查点可在https://github.com/lehduong/OneDiffusion免费获取。
面向任务的对话 (ToD) 系统需要解决多个子目标才能实现用户目标,而反馈通常只在对话结束时获得。在这项工作中,我们提出了 SUIT(基于子目标的迭代训练)——一种用于改进 ToD 系统的迭代训练方法。我们从我们旨在改进的模型中采样对话,并使用远程监督来确定有助于对话成功的子目标,从而获得高质量的训练样本。我们展示了这些数据如何改进监督微调或替代的偏好学习结果。SUIT能够迭代地生成更多数据,而不是依赖于固定的静态数据集。SUIT 在一个流行的 ToD 基准测试中达到了新的最先进的性能。
大型语言模型 (LLM)凭借其强大的生成能力和丰富的知识,赋能日常生活中的各种任务。然而,这些能力主要集中在资源丰富的语言中,导致资源匮乏的语言生成能力较弱,知识相对有限。因此,增强LLM的多语言能力对于服务全球100多个语言社群至关重要。增强多语言能力的一种直观方法是为各种语言构建指令数据,但为100多种语言构建指令数据成本高昂。本文介绍了BayLing 2,它通过语言对齐有效地将生成能力和知识从资源丰富的语言转移到资源匮乏的语言。为此,我们构建了一个包含320万条指令的数据集,其中包括资源丰富语言(中文和英文)的指令以及100多种语言的跨语言指令,并基于该数据集进行了指令微调,以促进语言之间的能力转移。我们使用Llama作为基础模型,开发了BayLing-2-7B、BayLing-2-13B和BayLing-3-8B,并对BayLing进行了全面的评估。在100多种语言的跨语言翻译方面,BayLing的表现优于同等规模的开源模型。在多语言知识和理解基准测试中,BayLing在20多种资源匮乏的语言中取得了显著改进,证明了其有效地将知识从资源丰富语言转移到资源匮乏语言的能力。此外,在英文基准测试中的结果表明,BayLing在资源丰富的语言中保持了高性能,同时提高了资源匮乏语言的性能。BayLing的演示、主页、代码和模型均已公开可用。