尽管取得了重大进展,大型多模态模型 (LMM) 仍然难以弥合低级视觉感知(专注于形状、大小和布局)与高级语言推理(例如语义和逻辑)之间的差距。这种局限性在需要精确视觉感知的任务中尤为明显,例如比较几何属性或解决视觉推理问题。为了研究这种失效模式,我们重点关注矢量图形——由二维对象和形状组成的图像,在基于 LMM 的 Web、设计和操作系统环境中的任务中十分常见。我们确定了两个关键的研究问题:如何实现精确的视觉感知,以及如何根据这些低级感知促进高级推理?为了捕捉精细的视觉细节,我们使用可缩放矢量图形 (SVG) 来精确编码视觉场景。然而,SVG 无法以零样本方式被 LMM 直接解释。为了解决这个问题,我们提出了视觉描述语言模型 (VDLM),它引入了原始视觉描述 (PVD) 作为中间文本表示。PVD 将 SVG 翻译成基于文本的抽象,包含基本属性(例如形状、位置、测量)及其对应值。PVD 可以使用与任务无关的合成数据进行学习,并代表跨矢量图形通用的视觉基本元素。这种抽象更加结构化,允许基础模型直接解释,从而实现零样本泛化。在没有人工标注数据的情况下,实证结果表明,VDLM 在各种多模态感知和推理任务上显著提高了 GPT-4o 等最先进的 LMM 的性能。对 VDLM 的广泛分析表明,由于其解耦的感知和推理,其可解释性得到了改善。我们还证明了 PVD 质量与任务性能之间存在正相关性。项目页面:https://mikewangwzhl.github.io/VDLM/
大型语言模型 (LLM) 越来越多地用于处理多个生成调用(以树状结构排列,并共享标记的前缀)的复杂任务,包括少样本提示、多步推理、推测解码等。然而,现有的基于树的应用推理系统效率低下,因为在注意力计算期间,查询和 KV 缓存的划分不当。这导致了两个主要问题:(1) 共享前缀的 KV 缓存缺乏内存访问 (IO) 重用,以及 (2) 负载不均衡。因此,GPU 全局内存和共享内存之间存在冗余的 KV 缓存 IO,并且 GPU 利用率较低。为了解决这些挑战,我们提出了 DeFT(带有 Flash 树注意力的解码),这是一种硬件高效的注意力算法,具有前缀感知和负载均衡的 KV 缓存分区。DeFT 通过 KV 引导分组减少了注意力计算期间 KV 缓存的读写操作次数,该方法避免了在注意力计算中重复加载共享前缀的 KV 缓存。此外,我们提出了扁平树 KV 分割,这是一种机制,可以确保 KV 缓存在分区之间均匀分布,几乎没有计算冗余,从而提高了注意力计算期间的 GPU 利用率。通过减少注意力计算期间 73-99 KV 缓存 IO 和近 100 部分结果 IO,与最先进的注意力算法相比,DeFT 在三种实际基于树的工作负载中实现了高达 2.52/3.82 倍的端到端/注意力延迟加速。
作为文本理解和生成的现代首选工具,大型语言模型 (LLM) 预计能够通过利用输入上下文准确地输出答案。这要求 LLM 同时具备上下文忠实度和事实准确性。为了通过事实增强方法减轻幻觉,人们付出了大量努力来使 LLM 能够产生更好的输出。然而,它们也存在阻碍上下文忠实度的风险,因为事实增强会导致 LLM 对其参数化知识过于自信,从而忽略相关的输入上下文。在这项工作中,我们认为当前的事实增强方法会严重损害 LLM 的上下文忠实度。我们首先回顾了当前的事实增强方法,并评估了它们在增强事实准确性方面的有效性。接下来,我们评估了它们在知识编辑任务上的表现,以评估对上下文忠实度的潜在影响。实验结果表明,虽然这些方法可能在事实准确性方面产生不一致的改进,但它们也会导致上下文忠实度更严重的下降,最大下降幅度高达惊人的 69.7%。为了解释这些下降,我们分析了分别代表新知识和参数化知识的标记的隐藏状态和 logits 分布,突出了当前方法的局限性。我们的发现突出了增强 LLM 所固有的复杂权衡。因此,我们建议更多关于 LLM 事实增强的研究应努力减少对上下文忠实度的牺牲。
条件扩散模型可以在各种环境下创建看不见的图像,帮助图像插值。潜空间插值已被充分研究,但具有文本或姿势等特定条件的插值了解较少。简单的方法,例如条件空间中的线性插值,通常会导致图像缺乏一致性、平滑度和保真度。为此,我们介绍了一种名为“通过扩散的注意力插值 (AID)” 的新型无训练技术。我们的主要贡献包括:1) 提出了一个内/外插值注意力层;2) 将插值注意力与自注意力融合以提高保真度;3) 应用贝塔分布进行选择以提高平滑度。我们还提出了一种变体,即“通过扩散的提示引导注意力插值 (PAID)”,它将插值视为一个条件相关的生成过程。该方法能够创建具有更高一致性、平滑度和效率的新图像,并提供对插值精确路径的控制。我们的方法证明了在概念和空间插值方面的有效性。代码和演示可在 https://github.com/QY-H00/attention-interpolation-diffusion 获取。
大型语言模型 (LLM) 的最新进展使更丰富的社会模拟成为可能,从而可以研究各种社会现象。然而,大多数最近的工作在这些模拟中采用了更无所不知的视角(例如,单个 LLM 生成所有对话者),这与现实世界中涉及人类和 AI 代理的非无所不知、信息不对称的互动存在根本矛盾。为了检验这些差异,我们开发了一个评估框架,用于在各种环境(无所不知、非无所不知)下模拟 LLM 的社会互动。我们的实验表明,LLM 在不切实际的、无所不知的模拟环境中表现更好,但在更准确地反映现实世界条件的信息不对称环境中却难以应对。我们的研究结果表明,解决信息不对称仍然是基于 LLM 的代理面临的一个根本挑战。
大型语言模型 (LLM) 需要与人类预期相一致,以确保其在大多数应用中的安全性和实用性。对齐是一项具有挑战性、成本高昂的任务,并且需要针对每个 LLM 和对齐标准重复进行。我们建议通过训练对齐器模型来解耦 LLM 和对齐,这些模型可以根据需要用于将任何 LLM 与给定标准对齐,从而也减少对齐对性能的潜在负面影响。我们训练对齐器模型的方案仅依赖于使用(提示)LLM 生成的合成数据,并且可以轻松调整以适应各种对齐标准。我们使用相同的合成数据来训练检查器,即二元错误对齐分类模型,以指导多个对齐器的“小队”。我们的实证结果表明,将对齐器小队应用于各种 LLM(包括聊天对齐模型)时,在多个指令遵循和红队数据集上都取得了持续的改进。
稠密检索器将源文档压缩成(可能是存在信息损失的)向量表示,但关于哪些信息丢失了,哪些信息保留了,以及这如何影响下游任务,几乎没有分析。我们首次分析了稠密检索器捕获的信息与它们所基于的语言模型(例如,BERT 与 Contriever)之间的对比。我们使用 25 个 MultiBert 检查点作为随机初始化来训练 MultiContrievers,这是一组 25 个 Contriever 模型。我们测试了是否可以从类维基百科文档的 Contriever 向量中提取特定信息(例如性别和职业)。我们通过信息论探测来衡量这种可提取性。然后,我们检查了可提取性与性能和性别偏见之间的关系,以及这些结果对许多随机初始化和数据随机排列的敏感性。我们发现:(1)Contriever 模型的可提取性显着提高,但可提取性通常与基准性能相关性很差;(2)存在性别偏见,但并非由 Contriever 表示引起;(3)对随机初始化和数据随机排列都高度敏感,这表明未来的检索研究应该在更广泛的范围内进行测试。
大型语言模型(LLM)的应用已经远远超出了文本处理的范围,标志着一个新时代的到来,在这个时代,LLM 被视为能够在复杂环境中运作的通用代理。这些环境通常非常庞大,LLM 无法在其短期记忆中处理它们。受最近关于用工具扩展 LLM 能力的研究的启发,我们试图通过引入一种称为中间件的新型工具来调查工具在帮助 LLM 处理这种复杂性方面的诱人潜力,以帮助在这些庞大环境中进行主动探索。这种专门的工具可以充当中间件层,保护 LLM 免受环境复杂性的影响。在两个具有代表性的复杂环境——知识库(KB)和数据库——中,我们展示了在复杂环境中用工具增强语言代理的巨大潜力。值得注意的是,配备了中间件的 GPT-4 在需要访问数据库内容的任务中比最佳基线性能提高了 2.8 倍,在 KB 任务中提高了 2.2 倍。我们的发现为在现实世界应用中推进语言代理指明了方向。
低资源语言的数据稀缺问题可以通过使用双语词典,从高资源语言中标记的任务数据进行词对词翻译来解决。然而,双语词典在与任务数据词汇重叠方面往往有限,导致翻译覆盖率低和词典利用率低。我们提出了词典条件数据生成 LexC-Gen,一种能够大规模生成低资源语言分类任务数据的方法。具体来说,LexC-Gen 首先使用双语词典中的高资源语言词汇生成与词典兼容的任务数据,然后通过词语翻译将其翻译成低资源语言。在 17 种极低资源语言中,LexC-Gen 生成的 数据与专家翻译的黄金数据具有竞争力,并且在情感分析和主题分类任务中,与现有的基于词典的词语翻译方法相比,平均提高了 5.6 和 8.9 个百分点。通过消融研究,我们表明,对双语词典的条件化是 LexC-Gen 的关键组成部分。LexC-Gen 可作为一种潜在的解决方案,缩小开源多语言模型(如 BLOOMZ 和 Aya-101)与 GPT-4o 等最先进的商业模型在低资源语言任务上的性能差距。
我们研究了 14 种针对聊天进行微调的大型语言模型 (LLM),发现它们在多项选择问答中的最大 Softmax 概率 (MSP) 始终存在误校准现象。然而,这些 MSP 仍然可能编码有用的不确定性信息。具体来说,我们假设错误答案与正确答案相比将具有更小的 MSP。通过严格的统计检验,我们证明了对于在基础问答任务中表现良好的模型,这一假设成立。我们还发现问答准确率与 MSP 正确性预测之间存在很强的方向相关性,而问答准确率与校准误差之间则没有相关性。这表明在当前的微调范式中,我们可以预期随着 LLM 能力的进步,正确性预测会提高,但校准不会提高。为了证明正确性预测的效用,我们展示了当模型可以选择放弃时,可以通过基于初始模型响应的 MSP 选择性放弃来提高性能,而只需要少量标记数据来选择 MSP 阈值。