大型语言模型 (LLMs) 在最近取得的进展展示了它们执行复杂推理任务的能力,但它们在规划方面的有效性仍未得到充分探索。在本研究中,我们评估了 OpenAI 的 o1 模型在各种基准任务上的规划能力,重点关注三个关键方面:可行性、最优性和泛化性。通过对约束密集型任务(例如,$\textit{Barman}$,$\textit{Tyreworld}$)和空间复杂环境(例如,$\textit{Termes}$,$\textit{Floortile}$)的实证评估,我们突出了 o1-preview 在自我评估和约束遵循方面的优势,同时也识别了决策和内存管理方面的瓶颈,特别是在需要强大空间推理能力的任务中。我们的结果表明,o1-preview 在遵守任务约束和管理结构化环境中的状态转换方面优于 GPT-4。然而,该模型经常生成包含冗余操作的次优解决方案,并且难以在空间复杂的任务中有效地泛化。这项初步研究提供了关于 LLM 规划局限性的基础见解,为未来研究提供关键方向,以改进基于 LLM 的规划中的内存管理、决策和泛化。代码可在以下地址获取:$\href{https://github.com/VITA-Group/o1-planning}{\text{https://github.com/VITA-Group/o1-planning}}$.
大型语言模型(LLMs)在许多特定领域的自然语言处理任务中已经取代了传统方法,本体匹配(OM)也不例外。LLMs 在 OM 中的广泛应用引发了对基准测试的需求,以更好地理解 LLM 幻觉。OAEI-LLM 数据集是本体对齐评估倡议 (OAEI) 数据集的扩展版本,用于评估 OM 任务中特定于 LLM 的幻觉。我们概述了数据集构建和模式扩展中使用的方法,并提供了潜在用例的示例。
扩散模型能够生成逼真的图像,这些图像组合了训练集中可能不会同时出现的元素,展现了其**组合泛化**的能力。然而,组合性的确切机制以及它是如何通过训练习得的仍然难以捉摸。受认知神经科学方法的启发,我们考虑了一个高度简化的设置,以检查扩散模型是否以及何时学习可组合特征的语义上有意义的、分解的表示。我们对条件去噪扩散概率模型 (DDPM) 进行了广泛的受控实验,训练这些模型生成各种形式的二维高斯凸起图像。我们发现,模型学习了分解的,但不是完全连续的流形表示,用于编码数据中潜在的连续变化特征。凭借这种表示,模型展现出优越的特征组合性,但对给定特征的未见值进行插值的能力有限。我们的实验结果进一步表明,扩散模型可以通过很少的组合示例获得组合性,这表明了一种更有效的训练 DDPM 的方法。最后,我们将扩散模型中的流形形成与物理学中的渗流理论联系起来,为分解表示学习的突然出现提供了洞察。我们详尽的玩具实验因此有助于更深入地理解扩散模型如何捕获数据中的组合结构。
我们介绍了奇妙团队,一个多智能体视觉大型语言模型 (VLLM) 框架,旨在以零样本模式解决机器人问题。在我们的语境中,零样本意味着对于一个新的环境,我们向 VLLM 提供机器人周围环境的图像和任务描述,VLLM 输出机器人完成任务所需的行动序列。与之前需要微调流水线部分的工作(例如,在特定于机器人的数据上调整 LLM 或训练单独的视觉编码器)不同,我们的方法证明了,通过精心设计,单个现成的 VLLM 可以自主处理机器人任务的所有方面,从高级规划到低级位置提取和动作执行。至关重要的是,与单独使用 GPT-4o 相比,奇妙团队具有自我纠正能力,能够迭代地修复自身错误,使其能够解决具有挑战性的长周期任务。我们通过广泛的实验验证了我们的框架,包括在使用 VIMABench 的模拟环境中和在现实世界环境中。我们的系统展示了处理各种任务的能力,例如操作、目标到达和视觉推理,所有这些都以零样本的方式完成。这些结果强调了一个关键点:视觉语言模型在过去一年中取得了快速进展,应该被认真考虑作为许多机器人问题的支柱,以推动未来的发展。
大型语言模型 (LLMs) 已取代传统方法,在众多自然语言处理任务中取得了成功。然而,在命名实体识别 (NER) 中,现有的基于 LLMs 的方法...
现有的机器学习基准缺乏评估模型在业务流程管理 (BPM) 任务上的深度和多样性注释。BPM 是记录、衡量、改进和自动化企业工作流程的做法。然而,研究几乎完全集中在一项任务上——使用基于多模态基础模型 (FM)(如 GPT-4)的代理进行全面的端到端自动化。这种对自动化的关注忽略了大多数 BPM 工具在当今应用方式的现实——仅仅记录相关工作流程就占据了典型流程优化项目时间的 60%。为了解决这一差距,我们提出了 WONDERBREAD,这是第一个评估多模态 FM 在超越自动化的 BPM 任务上的基准。我们的贡献是:(1)包含 2928 个已记录工作流程演示的数据集;(2)从现实世界应用中获得的 6 个新颖的 BPM 任务,涵盖从工作流程文档到知识转移到流程改进的各个方面;以及(3)自动评估工具。我们的基准表明,虽然最先进的 FM 可以自动生成文档(例如,回忆视频演示工作流程中 88% 的步骤),但它们难以将这些知识重新应用于工作流程完成的更细粒度的验证(F1 < 0.3)。我们希望 WONDERBREAD 鼓励为企业应用程序开发更多“以人为本”的 AI 工具,并推动多模态 FM 在更广泛的 BPM 任务领域中的探索。我们发布我们的数据集和实验:https://github.com/HazyResearch/wonderbread
大型语言模型 (LLM) 的出现促使人们开发了许多基于 LLM 的方法,旨在为各种终端用户任务提供自然语言界面。这些终端用户任务反过来通常可以通过协调一组给定的 API 来完成。在实践中,自然语言任务请求(用户查询)往往是不完整的,即它们可能不包含 API 所需的所有信息。虽然 LLM 在自然语言处理 (NLP) 任务方面表现出色,但它们经常在缺失信息上出现幻觉或难以协调 API。我们提出的方法背后的关键思想是利用逻辑推理和经典人工智能规划以及 LLM 来准确地回答用户查询,包括识别和收集这些查询中任何缺失的信息。我们的方法使用 LLM 和 ASP(答案集编程)求解器通过 ASP 中的中间表示将用户查询转换为规划域定义语言 (PDDL) 中的表示。我们引入了一个特殊的 API “get_info_api” 用于收集缺失的信息。我们将所有 API 建模为 PDDL 动作,以支持 API 之间的数据流。然后,我们的方法使用经典的人工智能规划器来生成 API 调用的协调(包括对 get_info_api 的调用)以回答用户查询。我们的评估结果表明,我们的方法在大多数情况下显着优于纯基于 LLM 的方法,在包含完整和不完整单目标和多目标查询的数据集上实现了超过 95% 的成功率,其中多目标查询可能需要或不需要 API 之间的数据流。
大型语言模型(LLMs)作为决策支持工具的潜力在商业、工程和医学等领域正得到越来越多的探索,这些领域经常面临着不确定性下的决策难题。本文表明,直接在这些类型的决策问题上提示 LLMs 会产生较差的结果,尤其是在问题复杂性增加的情况下。为了帮助解决这些问题,我们提出了 DeLLMa(决策大型语言模型助手),这是一个旨在提高不确定环境中决策准确性的框架。DeLLMa 涉及一个多步骤推理过程,该过程整合了最近在扩展推理时间推理方面的最佳实践,借鉴了决策理论和效用理论的原则,以提供准确且可被人审计的决策过程。我们在多个现实的决策环境中验证了我们的程序,证明了 DeLLMa 可以持续提高领先语言模型的决策性能,并且与竞争方法相比,准确率提高了 40%。此外,我们展示了在测试时扩展计算量如何提高性能,并进行了人工评估以对 DeLLMa 的组件进行基准测试。
注意力机制在识别输入数据的关键部分方面展现出巨大的潜力,尤其是在数据收集和标注困难导致训练样本有限的情况下。受人类识别过程的启发,我们认为,如果人工智能基线模型能够接触到原始数据的关键部分,而不是整个输入数据集,就像人类感知一样,其性能将更加准确和可靠。然而,选择这些信息丰富的數據片段的任务,被称为硬注意力寻找,是一个极具挑战性的难题。在训练样本数量有限的情况下,现有的研究由于大量训练参数无法从有限的样本中有效学习,难以找到这些信息丰富的区域。在本研究中,我们针对少样本学习场景,提出了一种新颖且实用的可解释硬注意力寻找框架,称为FewXAT。我们的方法采用深度强化学习来实现硬注意力的概念,直接影响原始输入数据,从而使该过程对人类理解具有可解释性。通过对各种基准数据集进行广泛的实验,我们证明了所提方法的有效性。
我们以多模态分类问题的方式,从学术 PDF 文章中提取数学陈述及其证明,利用文本、字体特征和 PDF 的位图图像渲染作为不同的模态。我们提出了一种专门为提取定理式环境和证明而设计的模块化顺序多模态机器学习方法。这基于跨模态注意力机制来生成多模态段落嵌入,然后将其输入到我们新颖的多模态滑动窗口 Transformer 架构中,以捕获跨段落的顺序信息。我们的文档 AI 方法脱颖而出,因为它消除了对 OCR 预处理、推理期间的 LaTeX 源代码或专门损失的自定义预训练以理解跨模态关系的需求。与许多在单页级别运行的传统方法不同,我们的方法可以直接应用于多页 PDF,并无缝处理冗长的科学数学文档中常见的分页符。我们的方法证明了从单模态到多模态,最后通过在段落上整合顺序建模而获得的性能改进。