多模态检索增强生成 (MMRAG) 是一个强大的方法,用于针对多模态文档进行问答。评估 MMRAG 的一个关键挑战是缺乏与感兴趣的问题风格和模态相匹配的高质量数据集。鉴于此,我们提出了 SMMQG,一个合成数据生成框架。SMMQG 利用检索器、大型语言模型 (LLM) 和大型多模态模型 (LMM) 之间的相互作用,直接从多模态文档中生成问答对,问题符合指定的风格和模态。我们使用 SMMQG 为维基百科文档生成包含 1024 个问题的 MMRAG 数据集,并使用该数据集评估最先进的模型,揭示了仅通过风格和模态特定评估数据才能获得的模型性能见解。接下来,我们通过一项人类研究来衡量 SMMQG 生成的数据的质量。我们发现,SMMQG 生成的合成数据的质量与众包基准 MMQA 的质量相当,并且使用这两个数据集进行的下游评估结果高度一致。
链式思维(CoT)提示已被证明可以增强大型语言模型(LLMs)的多步推理能力。然而,关于 LLMs 在给出 CoT 提示时是否表现出抽象泛化或依赖于浅层启发式方法的争论仍在继续。为了理解影响 CoT 推理的因素,我们提供了一个关于解码移位密码的符号推理任务的详细案例研究,其中字母在字母表中向前移动若干步。我们分析了三个 LLMs(GPT-4、Claude 3 和 Llama 3.1)使用 CoT 提示执行此任务时产生的结果模式。通过专注于一个相对简单的任务,我们能够识别出三个系统性地影响 CoT 性能的因素:任务预期输出的概率(概率)、模型在预训练期间隐式学习的内容(记忆)以及推理中涉及的中间操作的数量(噪声推理)。我们表明,这些因素会极大地影响所有三个 LLMs 的任务准确性;例如,当使用 GPT-4 进行测试时,改变输出出现的概率会使准确率从 26% 变化到 70%。总的来说,我们得出结论,CoT 提示的性能反映了记忆和真实推理的概率版本。代码和数据位于此 https://github.com/aksh555/deciphering_cot。
具有视觉输入的大语言模型(VLMs),即视觉语言模型,能够处理状态信息作为视觉文本提示,并以文本形式响应策略决策。我们提出了LLaRA:大型语言和机器人助手,这是一个将机器人动作策略表述为对话并通过使用补充策略学习的辅助数据进行训练来提供改进的动作输出的框架。我们首先介绍了一个自动管道,用于从现有的行为克隆数据中生成对话式指令调整数据。然后,我们通过制定六个辅助任务以自监督的方式丰富数据集。用由此产生的数据集集合进行微调的VLM可以生成有意义的机器人动作策略决策。我们在多个模拟和现实世界环境中进行的实验证明了所提出的LLaRA框架的最新性能。代码、数据集和预训练模型可在https://github.com/LostXine/LLaRA获得。
工具增强型大型语言模型 (LLM) 正在迅速融入现实世界应用。由于缺乏基准,社区尚未完全了解这些模型中的幻觉问题。为了应对这一挑战,我们引入了一个全面的诊断基准,ToolBH。具体来说,我们从深度和广度两个角度评估了 LLM 的幻觉。在深度方面,我们提出了一个多层次的诊断过程,包括(1)可解性检测,(2)解决方案规划,以及(3)缺失工具分析。在广度方面,我们根据工具集的特性考虑了三种场景:缺少必要的工具、潜在工具和功能有限的工具。此外,我们开发了七项任务,并通过多轮人工标注收集了 700 个评估样本。结果表明,ToolBH 基准带来了重大挑战。目前先进的模型 Gemini-1.5-Pro 和 GPT-4o 在 100 分的量表上分别只取得了 45.3 分和 37.0 分的总分。在这个基准中,更大的模型参数并不保证更好的性能;训练数据和响应策略在工具增强型 LLM 场景中也起着至关重要的作用。我们的诊断分析表明,模型错误的主要原因在于评估任务的可解性。此外,开放权重模型在冗长的回复中性能下降,而专有模型在更长的推理中表现出色。
尽管大型语言模型(LLM)取得了进展,但它们如何利用其知识进行推理仍不清楚。在本研究中,我们提出了一种方法,将复杂的现实世界问题分解成一个图,将每个问题表示为一个节点,该节点具有解决问题所需的背景知识的前驱。我们开发了 DepthQA 数据集,将问题分解为三个深度:(i)回忆概念知识,(ii)应用程序知识,以及(iii)分析策略知识。基于分层图,我们量化了前向差异,即 LLM 在更简单子问题上的性能与复杂问题上的性能之间的差异。我们还衡量了后向差异,即 LLM 回答复杂问题,但难以回答更简单的问题。我们的分析表明,较小的模型比较大的模型表现出更多的差异。在模型容量和训练数据记忆的可能性方面,观察到不同的差异模式。此外,通过多轮交互引导模型从简单问题到复杂问题,可以提高各种规模模型的性能,突出了知识推理中结构化中间步骤的重要性。这项工作增强了我们对 LLM 推理的理解,并提出了提高其解决问题能力的方法。
随着大型语言模型 (LLM) 在自然语言理解任务中展现出非凡的性能,衡量它们进行类人多步逻辑推理的能力至关重要。现有的逻辑推理评估基准通常主要关注简单的单步或多步推理,推理规则有限。此外,缺乏用于评估非单调推理的数据集代表着一个关键的差距,因为非单调推理更符合类人推理。为了解决这些局限性,我们提出了 Multi-LogiEval,这是一个全面的评估数据集,涵盖了具有各种推理规则和深度的多步逻辑推理。Multi-LogiEval 包含三种逻辑类型——命题逻辑、一阶逻辑和非单调逻辑——包含 30 多个推理规则以及它们在不同深度的 60 多种组合。利用该数据集,我们对包括 GPT-4、ChatGPT、Gemini-Pro、Yi、Orca 和 Mistral 在内的一系列 LLM 进行了评估,采用了零样本思维链。实验结果表明,随着推理步骤/深度的增加,LLM 的性能显著下降(深度 1 的平均准确率约为 68%,深度 5 的平均准确率约为 43%)。我们进一步对 LLM 生成的推理链进行了深入调查,揭示了一些重要的发现。我们相信 Multi-LogiEval 有助于未来研究评估和增强 LLM 的逻辑推理能力。数据可在 https://github.com/Mihir3009/Multi-LogiEval 获取。
我们提出了 LoCoVQA,一个用于评估视觉语言模型 (VLM) 长文本抽取推理的动态基准生成器。LoCoVQA 通过包含来自分布内和分布外干扰图像的越来越长的视觉上下文来增强数学推理、VQA 和字符识别任务的测试示例。
在这些任务中,各种 VLM 随着视觉上下文长度的增长,性能迅速下降,通常表现出惊人的对数衰减趋势。此测试评估了 VLM 在回答查询时忽略无关信息的能力——对于文本领域的语言模型 (LM) 来说,这是一个相当容易的任务——表明当前最先进的 VLM 缺乏许多长文本应用所必需的这种基本能力。
许多优化问题都需要平衡多个相互冲突的目标。由于梯度下降法仅限于单目标优化,我们引入了其直接推广:雅可比下降法 (JD)。该算法使用向量值目标函数的雅可比矩阵迭代更新参数,其中每一行都是单个目标的梯度。尽管文献中已经存在几种组合梯度的方法,但它们在目标冲突时通常会受到阻碍。相比之下,我们提出将梯度投影到完全解决冲突,同时确保它们保持与其范数成比例的影响力。我们用实证结果证明了这种方法具有明显更强的收敛保证。我们的方法还使实例级风险最小化 (IWRM) 成为可能,这是一种新的学习范式,其中每个训练样本的损失被视为一个独立的目标。应用于简单的图像分类任务,与直接最小化平均损失相比,IWRM 表现出有希望的结果。此外,我们概述了使用雅可比矩阵的格拉姆矩阵来减少时间和内存需求的 JD 的有效实现。
我们提出了 MMLU-SR,一个新颖的数据集,旨在通过挑战大型语言模型 (LLM) 在问答任务中的表现来衡量其真正的理解能力,方法是使用修改后的术语。我们认为,一个“真正”理解一个概念的代理,即使关键术语被适当定义的替代术语替换,也能对其进行评估,并试图将这种理解与简单的文本替换区分开来。在我们的研究中,我们通过用一个虚拟词及其定义替换关键术语来修改标准化测试问题。关键术语可能出现在问题的语境中、答案中,或问题和答案中。尽管最近流行的 LLM 在 MMLU 排行榜上取得了高分,但我们发现,在进行这种替换后,模型的性能大幅下降,这表明其理解能力很差。这个新的基准为测试模型的真实理解能力提供了一个严格的标准,并对更广泛的科学界提出了挑战。
核心ference解析(CR)模型的泛化能力有限一直是该任务广泛应用的主要瓶颈。先前的工作已经确定了标注差异,特别是对于提及检测,是造成泛化差距的主要原因之一,并建议使用额外的标注目标领域数据。我们提出了一种替代的参照任务,即主要实体识别(MEI),而不是依赖于这种额外的标注,我们:(a) 假设目标实体在输入中指定,以及 (b) 将任务限制在只有频繁出现的实体。通过广泛的实验,我们证明了 MEI 模型在多个数据集上具有良好的跨域泛化能力,包括监督模型和基于 LLM 的少样本提示。此外,MEI 符合分类框架,这使得能够使用稳健且直观的基于分类的指标。最后,MEI 也很实用,因为它允许用户搜索特定实体或感兴趣的一组实体的所有提及。