我们提出了JurEE,一个由高效的仅编码器Transformer模型组成的集成系统,旨在增强基于LLM系统的AI-用户交互中的安全保障。与现有的将LLM作为裁判的方法不同,这些方法通常难以跨风险分类进行泛化,并且只提供文本输出,JurEE提供了一系列普遍风险的概率风险估计。我们的方法利用了多样化的数据源,并采用了渐进式合成数据生成技术,包括LLM辅助增强,以提高模型的鲁棒性和性能。我们创建了一个内部基准,包括OpenAI Moderation Dataset和ToxicChat等其他信誉良好的基准,发现JurEE在基线模型方面表现出明显优势,证明了其更高的准确性、速度和成本效益。这使得它特别适合需要严格内容审核的应用程序,例如面向客户的聊天机器人。编码器集成的模块化设计允许用户设置定制的风险阈值,增强其在各种安全相关应用程序中的通用性。JurEE的集体决策过程,其中每个专门的编码器模型都对最终输出做出贡献,不仅提高了预测精度,而且还增强了可解释性。这种方法为需要强大的内容审核的大规模实施提供了比传统LLM更有效、性能更高、更经济的替代方案。
大型语言模型 (LLMs) 在执行复杂的多步骤推理任务时,能够推导出结构化的中间证明步骤对于确保模型真正执行所需的推理以及提高模型的可解释性至关重要。本文围绕一项重点研究展开:当前最先进的通用 LLM 是否能够利用少量示例中的结构,通过“上下文学习”更好地构建证明结构。我们的研究特别关注结构感知演示和结构感知剪枝。我们证明了它们都有助于提高性能。为了帮助理解结果,本文提供了详细的分析。
符号音乐生成问题由于数据量有限和音符音高精度要求高而呈现出独特的挑战。为了克服这些困难,我们在扩散模型中引入了细粒度纹理引导(FTG)来纠正学习分布中的错误。通过整合FTG,扩散模型提高了音乐生成的准确性,使其非常适合高级任务,如渐进式音乐生成、即兴创作和交互式音乐创作。我们推导出符号音乐生成挑战和FTG方法效果的理论特征。我们提供了数值实验和一个交互式音乐生成的演示页面,该页面允许用户输入,以展示我们方法的有效性。
大型语言模型 (LLM) 在医疗应用方面展现出巨大潜力,但通常缺乏专业的临床知识。检索增强生成 (RAG) 允许使用特定领域的信息进行定制,使其适合医疗保健。本研究评估了 RAG 模型在确定手术适应症和提供术前指导方面的准确性、一致性和安全性。我们使用 35 个地方和 23 个国际术前指南开发了 LLM-RAG 模型,并将其与人工生成的响应进行测试。总共评估了 3,682 个响应。临床文件使用 Llamaindex 进行处理,评估了 10 个 LLM,包括 GPT3.5、GPT4 和 Claude-3。分析了 14 个临床场景,重点关注术前指导的七个方面。使用既定的指南和专家判断来确定正确答案,并以人工生成的答案作为比较。LLM-RAG 模型在 20 秒内生成了响应,明显快于临床医生(10 分钟)。GPT4 LLM-RAG 模型实现了最高的准确率(96.4% 对 86.6%,p=0.016),没有幻觉,并且生成了与临床医生相当的正确指令。结果在地方和国际指南中都保持一致。本研究证明了 LLM-RAG 模型在术前医疗保健任务中的潜力,突出了它们的效率、可扩展性和可靠性。
人工智能生成的艺术这一新兴领域见证了提示市场的发展,创作者可以在其中购买、出售或分享提示以生成独特的艺术作品。这些市场通常声称对提示拥有所有权,并将它们视为知识产权。本文研究了在提示市场上出售的隐藏提示是否可以被视为安全的知识产权,因为人类和人工智能工具可能能够根据每个出售提示的公开宣传的示例图像大致推断出提示。具体而言,我们的调查旨在评估 (i) 人类仅通过检查人工智能生成的图像来推断原始提示的准确率,目标是生成与原始图像相似的图像,以及 (ii) 通过利用大型语言模型构建人机组合提示,从而提高个人人类和人工智能提示推断的可能性。虽然之前的研究探索了使用人工智能和机器学习来推断(以及防止)提示推断,但我们是第一个将人类纳入循环的研究。我们的研究结果表明,虽然人类和人机协作可以推断提示并生成具有高准确度的相似图像,但它们并不像使用原始提示那样成功。
大型多模态对话模型 (LMM) 在利用在线大量图像-文本数据方面取得了显著进展。然而,这些模型经常遇到巨大的领域差距,阻碍了他们在新领域进行复杂对话的能力。最近的努力旨在缓解这个问题,尽管依赖于特定领域的图像-文本数据来策划指令微调数据。然而,许多领域,如农业,缺乏这种视觉-语言数据。在这项工作中,我们提出了一种方法来构建指令微调数据,利用仅视觉数据来进行农业领域。我们利用跨多个领域的各种农业数据集,策划特定类别的信息,并使用大型语言模型 (LLM) 来构建专家微调集,从而产生一个包含 70,000 条数据的专家微调数据集,称为 AgroInstruct。随后,我们对 AgroGPT 进行了专家微调并创建了它,这是一个能够进行复杂的农业相关对话并提供有用见解的有效 LMM。我们还开发了 AgroEvals 用于评估,并将 AgroGPT 的性能与大型开源和闭源模型进行比较。AgroGPT 在识别细粒度的农业概念方面表现出色,可以充当农业专家,并为多模态农业问题提供有用的信息。代码、数据集和模型可在 https://github.com/awaisrauf/agroGPT 获取。
我们提出了 VoxelPrompt,一个基于代理的视觉-语言框架,通过联合建模自然语言、图像体积和分析指标来解决各种放射学任务。VoxelPrompt 是多模态且通用的,利用语言交互的灵活性,同时提供定量化的图像分析。给定可变数量的 3D 医学体积,如 MRI 和 CT 扫描,VoxelPrompt 采用语言代理,该代理迭代地预测可执行指令以解决由输入提示指定的任务。这些指令与视觉网络通信以编码图像特征并生成体积输出(例如,分割)。VoxelPrompt 解释中间指令的结果并计划进一步的操作以计算离散度量(例如,一系列扫描中的肿瘤生长)并将相关输出呈现给用户。我们在各种神经影像任务的沙盒中评估了该框架,结果表明,单个 VoxelPrompt 模型可以描绘数百种解剖学和病理学特征,测量许多复杂的形态学特性,并执行病灶特征的开放式语言分析。VoxelPrompt 以与针对分割和视觉问答的微调单任务模型类似的精度执行这些目标,同时促进更广泛的任务范围。因此,通过支持语言交互的准确图像处理,VoxelPrompt 为众多成像任务提供了全面的实用性,这些任务传统上需要专门的模型来解决。
关系抽取对于构建知识图谱至关重要,而高质量的大型数据集是训练、微调和评估模型的基础。生成式数据增强(GDA)是扩展此类数据集的一种常见方法。然而,这种方法通常会引入幻觉,例如虚假事实,其对关系抽取的影响尚待探索。本文考察了幻觉对文档级和句子级关系抽取性能的影响。我们的实证研究表明,幻觉会严重损害模型从文本中提取关系的能力,导致召回率下降 19.1% 到 39.2%。我们发现相关幻觉会损害模型的性能,而无关幻觉的影响很小。此外,我们开发了检测幻觉的方法来提高数据质量和模型性能。我们的方法成功地将文本分类为“幻觉”或“干净”,实现了 83.8% 和 92.2% 的高 F1 分数。这些方法不仅有助于消除幻觉,还有助于估计数据集中的幻觉流行率,这对选择高质量数据至关重要。总的来说,我们的工作证实了相关幻觉对关系抽取模型有效性的深远影响。
基于Transformer的语言模型的推理从提示处理步骤开始。在此步骤中,模型生成第一个输出标记并存储用于未来生成步骤的KV缓存。此提示处理步骤可能在计算上很昂贵,对于边缘设备上的数十亿参数模型,当提示长度或批次大小增加时,可能需要10秒或更长时间。这通过在模型的输出中引入显着的延迟来降低用户体验。为了减少生成第一个输出(称为“首个标记时间”,即TTFT)所花费的时间,我们引入了一种名为KV预测的新方法。在我们的方法中,使用一个小型的辅助模型来处理提示并生成基模型使用的KV缓存的近似值。然后,此近似的KV缓存与基模型一起用于自回归生成,而无需再次查询辅助模型。我们证明,与基线相比,我们的方法产生了帕累托最优的效率-精度权衡。在TriviaQA上,我们在各种TTFT FLOPs预算范围内展示了相对精度改进,范围为15%-50%。我们还展示了在固定TTFT FLOPs预算下,HumanEval python代码完成的精度提高了高达30%。此外,我们在Apple M2 Pro CPU上对模型进行了基准测试,并证明了我们对FLOPs的改进转化为硬件上的TTFT加速。我们发布了我们的代码:https://github.com/apple/corenet/tree/main/projects/kv-prediction。
基于图的异常检测在各种安全应用中至关重要,例如交易网络中的欺诈检测和网络流量入侵检测。标准方法,包括图神经网络(GNNs),通常难以跨越不断变化的数据分布进行泛化。同时,现实世界的领域知识更加稳定,并且是现实世界检测策略中常见的现有组成部分。为了将这种知识明确地整合到数据驱动模型(如 GCNs)中,我们提出了 KnowGraph,它将领域知识与数据驱动学习相结合,以增强基于图的异常检测。KnowGraph 包含两个主要组成部分:(1) 一个统计学习组件,它利用一个主模型来执行覆盖性的检测任务,并辅以多个专门的知识模型来预测特定领域的语义实体;(2) 一个推理组件,它利用概率图模型来执行基于模型输出的逻辑推理,通过加权的一阶逻辑公式来编码领域知识。在这些大规模真实世界数据集上的大量实验表明,KnowGraph 在转导和归纳设置中始终优于最先进的基线,在泛化到完全看不见的测试图时,平均精度获得了实质性的提升。进一步的消融研究证明了所提出的推理组件在提高检测性能方面的有效性,尤其是在极端类别不平衡的情况下。这些结果突出了将领域知识整合到数据驱动模型中以用于高风险、基于图的安全应用的潜力。