在数据主导的时代,领域特定语言的管理和利用已成为各种应用领域的关键挑战,特别是那些具有行业特定要求的领域。我们的工作源于有效管理和处理特定应用领域中大量短文本文档的需要。通过利用领域特定知识和专业知识,我们的方法旨在塑造这些领域内的真实数据,从而促进最终用户更好地利用和理解。我们方法的核心是将领域特定语言模型与面向图的数据库集成,从而促进目标领域内文本数据的无缝处理、分析和利用。我们的工作强调了领域特定语言模型与面向图的数据库合作的变革潜力。这种合作旨在帮助研究人员和工程师在度量使用、缓解延迟问题、提高可解释性、增强调试和提高整体模型性能方面取得进展。展望未来,我们希望我们的工作能够成为 AI 工程师的指南,为将领域特定语言模型与面向图的数据库相结合的实施提供宝贵的见解,并提供此类产品全生命周期维护的宝贵经验。
近年来,增强大型语言模型(LLM)的推理能力引起了广泛关注。以往研究表明,各种提示策略(称为“推理动作”)在帮助LLM进行推理方面非常有效,例如逐步思考、回答前反思、用程序解决以及它们的组合。然而,这些方法通常将静态的、预定义的推理动作统一应用于所有问题,而没有考虑每个问题的具体特征或任务解决型LLM的能力。在本文中,我们提出了DOTS,一种方法,它使LLM能够通过最优推理轨迹搜索动态地进行推理,针对每个问题的具体特征和任务解决型LLM的固有能力进行定制。我们的方法包括三个关键步骤:i) 定义可以组合成各种推理动作轨迹的原子推理动作模块;ii) 通过针对特定任务解决型LLM的迭代探索和评估,为每个训练问题搜索最佳动作轨迹;iii) 使用收集到的最佳轨迹来训练LLM,以便为未见过的问题的推理轨迹进行规划。特别是,我们提出了两种学习范式,即微调外部LLM作为规划器来指导任务解决型LLM,或者直接微调任务解决型LLM,使其具有推理动作规划的内部能力。我们在八个推理任务上的实验表明,我们的方法始终优于静态推理技术和vanilla指令调优方法。进一步的分析表明,我们的方法使LLM能够根据问题的复杂性调整它们的计算,将更深入的思考和推理分配给更难的问题。
大型语言模型 (LLM) 的数量和种类正在迅速增长,这给高效选择适合特定查询的 LLM 带来了重大挑战,尤其是在性能和计算成本之间的权衡方面。现有的 LLM 选择方法通常难以在新的 LLM 和不同的任务之间进行泛化,因为它们在利用任务、查询和 LLM 之间的上下文交互方面能力有限,并且依赖于转导学习框架。为了解决这些缺点,我们提出了一种名为 GraphRouter 的新型归纳图框架,该框架充分利用任务、查询和 LLM 之间的上下文信息来增强 LLM 选择过程。GraphRouter 构建了一个包含任务、查询和 LLM 节点的异构图,用边来表示交互,从而有效地捕获查询需求与 LLM 能力之间的上下文信息。通过一种创新的边预测机制,GraphRouter 能够预测潜在边的属性(LLM 响应的效果和成本),从而提供针对现有 LLM 和新引入 LLM 的优化推荐,无需重新训练。在三种不同的效果-成本权重场景下进行的综合实验表明,GraphRouter 明显优于现有的路由器,性能至少提高了 12.3%。此外,它在新的 LLM 设置中实现了增强的泛化能力,并支持多种任务,效果至少提高了 9.5%,同时显著降低了计算需求。这项工作致力于应用基于图的方法来进行 LLM 的上下文和自适应选择,为现实世界应用提供见解。GraphRouter 的代码将很快在 https://github.com/ulab-uiuc/GraphRouter 上发布。
大型语言模型 (LLM) 已取代传统方法,成为众多自然语言处理任务中的主流。然而,在命名实体识别 (NER) 领域,现有的基于 LLM 的方法...
影响函数是将预测结果合理地归因于训练数据的一种标准工具,广泛应用于数据估值和公平性等领域。在本研究中,我们提出了现实的激励措施来操纵基于影响的归因,并调查这些归因是否可以被对手 *系统地* 篡改。我们证明了这一点对于在 ResNet 特征嵌入和标准表格公平数据集上训练的逻辑回归模型是可能的,并提供了具有向后友好实现的高效攻击。我们的研究对基于影响的归因在对抗环境中的可靠性提出了质疑。代码可在以下地址获取:\url{https://github.com/infinite-pursuits/influence-based-attributions-can-be-manipulated}
随着大型语言模型 (LLM) 在自然语言理解任务中展现出非凡的性能,衡量其进行类似人类的多步逻辑推理的能力变得至关重要。现有的逻辑推理评估基准通常主要关注简单的单步或多步推理,推理规则有限。此外,缺乏用于评估非单调推理的数据集是一个关键的缺口,因为它更符合人类的推理。为了解决这些局限性,我们提出了 Multi-LogiEval,这是一个全面的评估数据集,涵盖了使用各种推理规则和深度的多步逻辑推理。Multi-LogiEval 涵盖三种逻辑类型——命题逻辑、一阶逻辑和非单调逻辑——包含 30 多个推理规则,以及它们在不同深度的 60 多种组合。利用此数据集,我们对包括 GPT-4、ChatGPT、Gemini-Pro、Yi、Orca 和 Mistral 在内的各种 LLM 进行了评估,采用零样本思维链。实验结果表明,随着推理步骤/深度的增加,LLM 的性能显著下降(深度 1 的平均准确率约为 68%,深度 5 的平均准确率约为 43%)。我们进一步对 LLM 生成的推理链进行了深入调查,发现了一些重要的发现。我们相信 Multi-LogiEval 有助于未来评估和增强 LLM 逻辑推理能力的研究。数据可在 https://github.com/Mihir3009/Multi-LogiEval 获取。
能够进行人类水平评估的通用大型语言模型 (LLM) 评判器不仅提供了一种可扩展且准确的评估指令遵循型 LLM 的方法,也为监督和改进其性能开辟了新的途径。利用 LLM 评判器进行监督的一种很有前景的方式是通过最小贝叶斯风险 (MBR) 解码,它使用基于参考的评估器从一组候选输出中选择高质量的输出。在这项工作的第一部分,我们探索使用 MBR 解码作为一种方法来提高指令遵循型 LLM 的测试时性能。我们发现,使用基于参考的 LLM 评判器的 MBR 解码在 AlpacaEval 和 MT-Bench 上显著优于贪婪解码、使用无参考评判器的最佳 N 解码以及使用词汇和嵌入式指标的 MBR 解码。这些收益在参数量高达 700 亿的 LLM 中是一致的,表明较小的 LLM 评判器可以用来监督更大的 LLM。然后,为了在减轻额外测试时成本的同时保留 MBR 解码的改进,我们探索了对 MBR 解码输出进行迭代自训练。我们发现,使用直接偏好优化进行的自训练会导致显著的性能提升,使得使用贪婪解码的自训练模型通常能够匹配甚至超过其使用 MBR 解码的基本模型的性能。
尽管对烹饪行为作为机器人预期任务之一的需求日益增长,但基于机器人对现实世界中新菜谱描述的一系列烹饪行为尚未实现。在本研究中,我们提出了一种机器人系统,该系统集成了使用大型语言模型 (LLM) 和 PDDL 描述的经典规划的真实可执行机器人烹饪行为规划,以及使用视觉语言模型 (VLM) 从少量数据中学习食物成分状态识别。我们成功地进行了实验,其中 PR2(一款双臂轮式机器人)在现实环境中根据排列好的新菜谱进行烹饪,并证实了所提系统的有效性。
因果关系研究在许多科学分支中至关重要,在智能系统的许多实际应用中也同样重要。特别是,在包含隐藏因素的情况下识别因果关系对于仅依赖观察数据构建因果模型的方法来说是一个重大挑战。本文提出了一种因果发现方法 CAnDOIT,该方法使用观察数据和干预时间序列数据来重建因果模型。在因果分析中使用干预数据对于现实世界的应用至关重要,例如机器人技术,在机器人技术中,场景非常复杂,仅凭观察数据通常不足以揭示正确的因果结构。该方法的验证最初是在随机生成的合成模型上进行,随后是在机器人操作环境中进行因果结构学习的知名基准上进行。实验表明,该方法可以有效地处理来自干预的数据,并利用这些数据来提高因果分析的准确性。CAnDOIT 的 Python 实现也已开发出来,并可在 GitHub 上公开获取:https://github.com/lcastri/causalflow。
近年来,在处理高分辨率图像时,主流的大模型(LLM)通常将图像分割成多个局部图像和一个全局图像,这会导致大量的视觉标记。为了解决这一问题,我们提出了 AVG-LLaVA,这是一种能够根据输入图像和指令自适应地选择合适视觉粒度的大模型。这种方法不仅减少了视觉标记的数量,加速了推理速度,而且提高了模型的整体性能。具体来说,我们基于 LLaVA-NeXT 引入了以下模块:(a) 一个视觉粒度缩放器,包含多个池化层,用于获取不同粒度的视觉标记;(b) 一个视觉粒度路由器,包含一个 Transformer 层、一个 MLP 层和一个投票层,用于根据图像和指令选择合适的视觉粒度。此外,我们还提出了 RGLF,这是一种新颖的训练范式,旨在将路由器预测的粒度与大模型的偏好对齐,而无需额外的标注数据。大量的实验和分析表明,AVG-LLaVA 在 11 个基准测试中取得了优越的性能,同时显著减少了视觉标记的数量,并加速了推理速度(例如,在 AI2D 基准测试中,视觉标记减少了 85.3%,推理速度提高了 2.53 倍)。