检索增强生成 (RAG) 在医疗保健、金融和法律等知识密集型领域已被证明可以提高大型语言模型 (LLMs) 的性能。给定一个查询,RAG 从语料库中检索相关文档,并将它们集成到 LLMs 的生成过程中。在本研究中,我们研究了 RAG 的对抗鲁棒性,重点关注检索系统的检查。首先,在语料库、检索器、查询和目标信息的 225 种不同设置组合中,我们表明检索系统容易受到医疗问答中的通用中毒攻击。在这样的攻击中,攻击者生成包含广泛目标信息的毒化文档,例如个人身份信息。当这些毒化文档被插入语料库时,只要使用攻击者指定的查询,任何用户都可以准确地检索到它们。为了理解这种漏洞,我们发现从查询嵌入到毒化文档嵌入的偏差往往遵循一种模式,其中毒化文档与查询之间的高相似性得以保留,从而实现精确检索。基于这些发现,我们开发了一种新的基于检测的防御措施,以确保 RAG 的安全使用。通过涵盖各种问答领域的广泛实验,我们观察到我们提出的方法在几乎所有情况下都始终如一地实现了出色的检测率。
无论是确定性模型还是随机性模型,都可以被视为旨在逼近特定感兴趣量的函数。我们提出了一种数据驱动的框架,该框架将来自不同模型的预测聚合到一个更准确的输出中。这种聚合方法利用每个模型的优势来提高整体精度。它是非侵入式的,将模型视为黑盒函数,与模型无关,需要最少的假设,并且可以组合来自各种模型的输出,包括来自机器学习和数值求解器的模型。我们认为聚合过程应该是逐点线性的,并提出了两种方法来找到最佳聚合:最小误差聚合(MEA),它最小化聚合的预测误差,以及最小方差聚合(MVA),它最小化其方差。虽然 MEA 在模型与目标量之间的相关性完全已知的情况下天生更准确,但最小经验方差聚合(MEVA)——MVA 的经验版本——始终优于最小经验误差聚合(MEEA),即 MEA 的经验对应物,当这些相关性必须从数据中估计时。关键区别在于 MEVA 通过估计模型误差来构建聚合,而 MEEA 将模型视为直接插值感兴趣量的特征。这使得 MEEA 更容易过度拟合和泛化不良,其中聚合在测试期间可能会比单个模型表现更差。我们在各种应用中展示了我们框架的多功能性和有效性,例如数据科学和偏微分方程,展示了它如何成功地将传统求解器与机器学习模型相结合,以提高鲁棒性和准确性。
我们介绍了 Disk2Planet,一个基于机器学习的工具,用于从观测到的原行星盘结构中推断盘-行星系统中的关键参数。Disk2Planet 以二维密度和速度图的形式接收盘结构作为输入,并输出盘和行星属性,即 Shakura-Sunyaev 粘度、盘纵横比、行星-恒星质量比以及行星的半径和方位角。我们整合了协方差矩阵自适应进化策略 (CMA-ES)(一种针对复杂优化问题的进化算法)和原行星盘算子网络 (PPDONet)(一种旨在预测盘-行星相互作用解的神经网络)。我们的工具是全自动的,可以在 Nvidia A100 图形处理单元上在一分钟内检索一个系统中的参数。我们通过实证证明,我们的工具可以达到百分比级或更高的准确率,并且能够处理缺失数据和未知噪声水平。
当前针对强大 AI 能力的监管措施狭隘地聚焦于“基础”或“前沿”模型。然而,这些术语模糊且定义不一致,导致治理工作基础不稳。至关重要的是,政策辩论往往忽视了这些模型所使用的数据,尽管数据与模型性能之间存在明显的关联。即使是(相对)“小型”模型,只要接触到足够特定的数据集,也能在典型基础模型和前沿模型定义之外实现等效的结果。在本研究中,我们阐明了将数据集规模和内容视为评估模型当前和未来风险的重要因素。更广泛地说,我们强调了过度反应性监管带来的风险,并提供了一条通往谨慎、定量评估能力的道路,这将有助于简化监管环境。
最近的争论引发了人们对语言模型可能偏袒某些观点的担忧。但如果解决方案不是追求“无处不在的视角”,而是利用不同的观点呢?我们引入了 Plurals,一个用于多元化 AI 协商的系统和 Python 库。Plurals 由代理(LLM,可选择具有角色)组成,这些代理在可定制的结构中进行协商,并由主持人监督协商。Plurals 是一个模拟社会集合的生成器。Plurals 集成了政府数据集以创建具有全国代表性的角色,包括受民主协商理论启发的协商模板,并允许用户自定义结构内的信息共享结构和协商行为。六个案例研究证明了对理论结构的保真度和有效性。三个随机实验表明,模拟焦点小组产生的输出与相关受众的在线样本产生共鸣(在 75% 的试验中选择超过零样本生成)。Plurals 既是一种范式,也是一个用于多元化 AI 的具体系统。Plurals 库可在 https://github.com/josh-ashkinaze/plurals 获取,并将不断更新。
本报告介绍了我们针对 2024 年 BRAVO 挑战赛第一赛道提出的解决方案,该解决方案训练了一个在 Cityscapes 数据集上训练的模型,并在多个分布外数据集上评估了其鲁棒性。我们的解决方案利用了视觉基础模型学习到的强大表示,通过在 DINOv2 上附加一个简单的分割解码器并对整个模型进行微调来实现。这种方法优于更复杂的现有方法,并在挑战赛中获得第一名。我们的代码已公开发布在 https://github.com/tue-mps/benchmark-vfm-ss。
生成式人工智能在解决全球医疗保健获取挑战方面蕴藏着巨大潜力,目前已有众多创新应用准备在各个医疗保健领域投入使用。然而,广泛采用这些领域特定人工智能解决方案的一个重大障碍是缺乏健壮的安全机制来有效地管理幻觉、错误信息和确保真实性等问题。如果任其发展,这些风险可能会危及患者安全,并损害人们对医疗保健人工智能系统的信任。虽然 Llama Guard 等通用框架对于过滤毒性和有害内容很有用,但它们并没有完全解决医疗保健环境中对真实性和安全性的严格要求。本文探讨了医疗保健人工智能固有的独特安全和安全挑战,特别是幻觉风险、错误信息的传播以及临床环境中对事实准确性的需求。我建议对现有的护栏框架(例如 Nvidia NeMo Guardrails)进行增强,使其更适合医疗保健的特定需求。通过加强这些保障措施,我旨在确保人工智能在医疗保健中的安全、可靠和准确使用,减轻错误信息风险,并改善患者安全。
文献表明,金融时间序列数据对准确的股价预测提出了重大挑战,因为这些数据具有噪声特征且易受新闻影响;传统的统计方法做出了线性性和正态性等假设,这些假设不适合金融时间序列的非线性性质;另一方面,机器学习方法能够捕捉数据中的非线性关系。迄今为止,神经网络被认为是金融价格预测的主要机器学习工具。迁移学习作为一种将知识从源任务转移到目标任务的方法,可以成为提高金融预测能力的非常有用的方法论工具。目前关于上述知识体系的综述主要集中在金融预测的神经网络架构上,对迁移学习方法的关注很少;因此,本文旨在深入探讨这一主题,通过系统地回顾迁移学习在金融市场预测中的应用,并探讨迁移学习方法在股市预测中面临的挑战和未来发展方向。
大型语言模型 (LLMs) 已取代传统方法,在众多自然语言处理任务中发挥着重要作用。然而,在命名实体识别 (NER) 领域,现有的基于 LLMs 的方法...
基于链的推理方法,如思维链 (CoT),在解决大型语言模型 (LLMs) 的推理任务中扮演着越来越重要的角色。然而,**推理步骤**与**相应状态转换**之间的因果幻觉正成为提升 LLMs 推理能力,尤其是长距离推理任务能力的重大障碍。本文提出了一种非基于链的推理框架,用于同时考虑因果显著性和一致性,即因果显著性和一致性增强器 (CSCE)。我们利用治疗效果评估定制 LLMs 的损失函数,从两个方面增强其推理能力:因果显著性和一致性。这确保了模型能够捕捉到重要的因果关系,并在各种情况下保持稳健且一致的性能。此外,我们将推理过程从基于链方法(如 CoT)中常用的级联式多步推理转变为一种因果增强方法,该方法可以一次性输出整个推理过程,进一步提高模型的推理效率。大量的实验表明,我们的方法提高了推理成功率和速度。这些改进进一步表明,非基于链的方法也可以帮助 LLMs 完成推理任务。