大型语言模型(LLM)在众多自然语言处理任务中已取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法...
检索增强生成(RAG)系统,如 Retro,已被证明可以通过从包含数万亿条记录的非参数化内存数据库中检索来提高语言建模能力,并减少毒性和幻觉。我们介绍了 Retro-li,它表明检索也可以帮助使用小规模数据库,但它需要更准确和更好的邻居,以便在更小、更稀疏的非参数化内存中搜索。这可以通过使用适当的语义相似性搜索来实现。我们进一步提出首次向非参数化内存添加正则化:当推理期间邻居搜索操作存在噪声时,它可以显著降低困惑度,并且当发生领域偏移时,它可以提高泛化能力。我们还表明,Retro-li 的非参数化内存可以潜在地在模拟内存计算硬件上实现,表现出 O(1) 搜索时间,同时在检索邻居时会产生噪声,而性能损失最小(<1%)。我们的代码可在以下地址获得:https://github.com/IBM/Retrieval-Enhanced-Transformer-Little。
知识蒸馏(KD)已成为将知识从更大、更复杂的教师模型转移到更小的学生模型的一种很有前景的方法。传统上,KD 涉及训练学生模仿教师的输出概率,而更先进的技术则探索引导学生采用教师的内部表示。尽管 KD 已经取得了广泛的成功,但在二元分类和少数类问题中,KD 的性能并不令人满意。这是因为教师模型泛化模式的信息量直接与类别数量成正比。此外,一些复杂的蒸馏方法可能并不适用于所有数据类型,或者对计算机视觉以外的数据类型无效。因此,对于一系列关键的现实世界应用,例如情感分析、搜索查询理解和广告查询相关性评估,有效的蒸馏技术仍然难以捉摸。考虑到这些观察结果,我们提出了一种从教师模型表示中蒸馏知识的新方法,我们称之为学习嵌入线性投影(LELP)。受关于最终层表示结构的最新发现的启发,LELP 通过识别教师嵌入空间中的信息丰富的线性子空间,并将它们分成伪子类来工作。然后训练学生模型来复制这些伪子类。我们在亚马逊评论和 Sentiment140 等大规模 NLP 基准测试上的实验评估表明,对于大多数 KD 方法都存在问题的二元和少数类问题,LELP 一直与现有的最先进的蒸馏算法具有竞争力,并且通常优于它们。
始终需要最新的、可靠的大型语言模型 (LLM)。通常,LLM 在固定数据集上进行训练,然后部署。然而,训练数据不断过时。使用网络数据自动训练 AI 涉及到数据质量和安全方面的重要问题,因为存在偏差、垃圾邮件和其他不安全或不希望有的文本。纯净的数据对于生成可靠的模型至关重要。在不纯净数据上训练模型可能会导致不良结果。本研究提出了一种系统,该系统收集网络数据并在现有可信 AI 模型的帮助下自动过滤掉不希望有的文本。在实验中,收集并过滤了一小部分网络数据,证明了该系统在净化数据方面的有效性。
大型语言模型 (LLM) 在各个领域变得越来越重要,尤其是在处理复杂数据类型方面。这包括结构化数据处理,如 ChartQA 和 ChatGPT-Ada 所示,以及多模态非结构化数据处理,如视觉问答 (VQA) 所示。这些领域引起了工业界和学术界的广泛关注。尽管如此,针对这些不同的数据处理场景,仍然缺乏统一的评估方法。为了解决这个问题,我们介绍了 BabelBench,这是一个创新的基准框架,用于评估 LLM 在使用代码执行管理多模态多结构化数据方面的熟练程度。BabelBench 包含一个包含 247 个精心策划的问题的数据集,这些问题通过感知、常识推理、逻辑推理等任务来挑战模型。除了多模态理解、结构化数据处理以及代码生成的基本能力外,这些任务还需要探索、规划、推理和调试等高级能力。我们在 BabelBench 上的实验结果表明,即使是像 ChatGPT 4 这样的尖端模型也还有很大的改进空间。我们从全面分析中得出的见解为社区未来的研究提供了宝贵的指导。基准数据可以在 https://github.com/FFD8FFE/babelbench 找到。
Golog 是一种表达能力很强的、高层次的智能体语言,它包含非确定性操作符,允许在执行时才做出一些决定。这种所谓的程序实现通常通过搜索或增量在线的方式实现。本文考虑了更现实的情况,即非确定性的部分由环境控制。因此,程序实现变成了一个合成问题,其中成功的实现会执行程序并满足所有可能的环境行为的时态目标。本文将 Golog 程序与一类表达能力强的、一阶动作理论相结合,该理论允许无界数量的对象和非局部效应,以及用 LTLf 的一阶扩展表示的时态目标。本文通过构建一个游戏竞技场来解决合成问题,该竞技场捕获了程序的所有可能执行,同时跟踪时态目标的满足情况,然后解决由此产生的两人游戏。本文在两个领域评估了该方法,证明了该方法的普遍可行性。
随着世界数字化进程的加速,能够自动完成复杂且单调任务的网络代理在简化工作流程方面变得至关重要。本文提出了一种通过多模态验证和自我优化来提高网络代理性能的方法。基于最先进的 Agent-E 网络自动化框架,我们对不同的模态(文本、视觉)以及层次结构对网络代理自动验证的影响进行了全面研究。我们还引入了一种用于网络自动化的自我优化机制,利用所开发的自动验证器,使网络代理能够检测并自我纠正工作流程故障。我们的结果表明,Agent-E(最先进的网络代理)的先前最先进性能得到了显著提升,在 WebVoyager 基准数据集的子集上,任务完成率从 76.2% 提升至 81.24%。本文提出的方法为在复杂、现实世界场景中构建更可靠的数字助理铺平了道路。
大型语言模型 (LLMs) 的出现激发了人们对推进基于 LLMs 的自主代理的兴趣,特别是在智能手机图形用户界面 (GUI) 中的引人入胜的应用。当面对一个任务目标时,这些代理通常模拟 GUI 环境中的人类行为,直到任务完成。然而,一个关键的挑战在于设计有效的计划来指导 GUI 任务中的动作预测,尽管计划已被广泛认为是将复杂任务分解成一系列步骤的有效方法。具体而言,鉴于动作执行后环境 GUI 的动态特性,根据环境反馈和动作历史动态地调整计划至关重要。我们表明,广泛使用的 ReAct 方法由于过长的历史对话而失败。为了解决这一挑战,我们提出了一种针对基于 LLM 的 GUI 代理的新方法,称为动态规划思想 (D-PoT)。D-PoT 涉及根据环境反馈和执行历史动态调整规划。实验结果表明,所提出的 D-PoT 在准确率方面显著超过了强大的 GPT-4V 基线 +12.7% (34.66% $\rightarrow$ 47.36%)。分析突出了动态规划在不同主干 LLM 中的通用性,以及在缓解幻觉和适应未见任务方面的益处。代码可在 https://github.com/sqzhang-lazy/D-PoT 获得。
放射学报告往往对患者来说难以理解,这损害了以患者为中心的医疗服务。我们提出了 ReXplain(放射学解释),这是一个创新的 AI 驱动的系统,能够为放射学发现生成患者友好的视频报告。ReXplain 独具特色地集成了一个用于文本简化的语言模型、一个用于解剖区域识别的图像分割模型和一个头像生成工具,从而生成包含简洁语言、突出显示的图像和 3D 器官渲染的全面解释。我们与五位获得委员会认证的放射科医师进行的概念验证研究表明,ReXplain 可以准确地传递放射学信息,并有效地模拟一对一咨询。这项工作展示了 AI 辅助医疗沟通的新范式,有可能提高患者在放射学护理中的参与度和满意度,并为多模式医疗沟通研究开辟了新的途径。
在认知发展中,守恒是一个关键的里程碑,被认为是由对数量概念的理解和心理操作的可逆性共同支持的。为了评估这种人类智力的关键组成部分是否已在视觉语言模型中出现,我们利用 CogDevelop2K 中的 ConserveBench,这是一个数据密集型认知实验基准,用于评估机器智能的发展轨迹。该测试包括超过 350 个问题,涵盖物理量的四个维度:体积、固体数量、长度和数量。前两个仅涉及转换任务,而后两个还涉及非转换任务,仅评估对数量概念的理解。令人惊讶的是,我们发现,虽然 VLM 通常能够守恒,但它们往往无法完成非转换任务,而这些任务的成功通常被认为是守恒能力的体现。这意味着,至少在具体领域,守恒定律可能存在,而没有相应的数量概念理解。