将大型语言模型 (LLM) 适应新语言通常涉及持续预训练 (CT) 然后进行监督微调 (SFT)。然而,这种 CT-then-SFT 方法在低资源语言环境下数据有限的情况下难以平衡语言建模和任务解决能力。因此,我们提出了模型合并作为低资源语言的一种替代方案,将具有不同能力的模型合并成一个模型,而无需额外训练。我们使用模型合并为低资源语言开发任务解决型 LLM,而无需在目标语言中进行 SFT 数据。我们基于 Llama-2-7B 的实验表明,模型合并有效地赋予了低资源语言的 LLM 任务解决能力,在数据极其稀缺的情况下优于 CT-then-SFT。观察到模型合并中训练代币数量越多,性能就越饱和,我们进一步分析了合并过程,并在模型合并算法中引入了松弛变量,以减轻重要参数的损失,从而提高性能。我们希望模型合并能够以更高的数据效率惠及更多受数据稀缺困扰的人类语言。
尽管多模态大型语言模型 (MLLMs) 取得了成功,但它们在通用性方面有限,与专门模型相比往往逊色。最近,人们开发了基于 LLMs 的代理来解决这些挑战,这些代理根据用户输入选择合适的专门模型作为工具。然而,这种进步在医疗领域尚未得到广泛探索。为了弥合这一差距,本文介绍了第一个专门为医疗领域设计的代理,名为**多模态医疗代理** (MMedAgent)。我们整理了一个指令微调数据集,其中包含六种解决七项任务的医疗工具,涵盖五种模态,使代理能够为给定任务选择最合适的工具。全面的实验表明,与最先进的开源方法甚至闭源模型 GPT-4o 相比,MMedAgent 在各种医疗任务中取得了优异的性能。此外,MMedAgent 在更新和集成新的医疗工具方面表现出效率。代码和模型均可获取。
在海量语料库上训练的大型语言模型 (LLM) 不可避免地会保留敏感数据,例如个人隐私信息和版权材料。知识遗忘的最新进展涉及更新 LLM 参数以消除特定知识。然而,当前的遗忘范式陷于模糊的遗忘边界,经常不加区别地消除知识。在这项工作中,我们介绍了 KnowUnDo,这是一个包含版权内容和用户隐私领域的基准,用于评估遗忘过程是否会无意中消除必要知识。我们的研究结果表明,现有的遗忘方法往往会过度遗忘。为了解决这个问题,我们提出了一种简单但有效的方法 MemFlex,它利用梯度信息来精确地定位和遗忘敏感参数。实验结果表明,MemFlex 在精确知识遗忘和 LLM 的一般知识保留方面均优于现有方法。代码和数据集已发布在 https://github.com/zjunlp/KnowUnDo。
训练拥有数十亿参数的超大型语言模型 (LLM) 是一项计算密集型任务,它挑战着当前数据并行训练系统的极限。尽管 ZeRO++ 等技术已实现这类巨型模型在低带宽廉价集群上的高效分布式训练,但由于用于减少跨机器通信的层次化分区 (hpZ) 方案中潜在的竞争条件,它们可能会遇到收敛问题。在本研究中,我们首先展示了这些竞争条件如何在训练数十亿参数模型时导致不稳定。然后,我们提出了一种对分区算法的改进,它在保持竞争性训练效率的同时解决了这些收敛挑战。对训练数十亿参数的 Falcon 模型和 Llama-2 模型的实证评估表明,更新后的算法能够在这些大型模型上实现可靠的收敛,而标准 ZeRO++ hpZ 则无法收敛。更新后的算法能够以 98% 的吞吐量和模型训练速度提升来训练更大的模型,而不会牺牲收敛质量。
语言模型能力的提升推动了其应用向更长的上下文方向发展,使得长上下文评估和开发成为一个活跃的研究领域。然而,许多不同的用例被归类为“长上下文”这一笼统的术语,仅仅通过模型输入的总长度来定义,例如,包括“大海捞针”任务、书籍摘要和信息聚合。鉴于这些任务的难度各异,在这篇立场文件中,我们认为,将不同的任务混淆为“长上下文”是不可取的。作为一个研究群体,我们需要更精确的词汇来理解是什么使长上下文任务相似或不同。我们建议根据使长上下文任务更难的属性来拆解长上下文的分类。我们提出了两个正交的难度轴:(I) 扩散:在上下文中找到必要信息有多难?(II) 范围:需要找到多少必要信息?我们对长上下文文献进行了调查,为这种分类作为一种信息性描述提供了理由,并根据这种分类对文献进行了定位。我们得出结论,最困难、最有趣的设置,其必要信息非常长并且在输入中高度分散,是严重缺乏探索的。通过使用描述性词汇并讨论长上下文中相关难度的属性,我们可以在这个领域进行更明智的研究。我们呼吁仔细设计具有明显长上下文的任务和基准,同时考虑使其在质量上区别于短上下文的特征。
语言模型(LM)展现出令人印象深刻的性能和泛化能力。然而,LM 仍然面临着灾难性遗忘的持续挑战,这阻碍了它们在持续学习(CL)中的长期可持续性。现有方法通常通过将旧任务数据或任务特定的归纳偏差融入 LM 来解决这个问题。然而,旧数据和准确的任务信息往往不可用或收集成本很高,阻碍了当前 CL 方法在 LM 中的可用性。为了解决这一局限性,我们引入了 $\textbf{MIGU}$($\textbf{M}$agn$\textbf{I}$tude-based $\textbf{G}$radient $\textbf{U}$pdating for continual learning),一种免重演且免任务标签的方法,它只用 LM 线性层中输出幅度较大的参数更新模型参数。MIGU 基于我们对 LM 线性层输出的 L1 归一化幅度分布在 LM 模型处理不同任务数据时不同的观察。通过对梯度更新过程施加这个简单的约束,我们可以利用 LM 的内在行为,从而释放它们的内在 CL 能力。我们的实验表明,MIGU 普遍适用于所有三种 LM 架构(T5、RoBERTa 和 Llama2),在四个 CL 基准上的持续微调和持续预训练设置中均取得了最先进或相当的性能。例如,MIGU 在一个 15 任务 CL 基准上比传统的参数高效微调基线平均提高了 15.2% 的准确率。MIGU 还可以无缝地与所有三种现有的 CL 类型集成,以进一步提高性能。代码可在 https://github.com/wenyudu/MIGU 获取。
大型语言模型 (LLMs) 擅长生成连贯的文本,但它们在上下文感知方面往往存在困难,导致在需要忠实遵循提供信息的的任务中出现不准确。我们介绍了 FastMem,这是一种新方法,旨在通过快速记忆提示来增强指令微调的 LLMs 的上下文感知能力。FastMem 通过仅更新最后一个前馈网络 (FFN) 模块来最大化推断前提示的可能性。这种有针对性的方法确保了高效优化,不会过度拟合,从而显著提高模型理解和准确遵循上下文的能力。我们的实验表明,在阅读理解、文本摘要和输出结构遵守方面取得了实质性进展。例如,FastMem 将 Llama 3-8B-Inst 在 NQ-SWAP 数据集上的准确率从 59.1% 提高到 71.6%,并将 Qwen 1.5-4B-Chat 的输出结构失败率从 34.9% 降低到 25.5%。大量的实验结果突出了 FastMem 在增强各种应用中 LLMs 的可靠性和准确性方面的潜力。我们的代码可在以下地址获取:https://github.com/IAAR-Shanghai/FastMem
大型语言模型 (LLMs) 通过 Python 代码极大地增强了任务自动化,涵盖了从软件工程开发到通用推理的各种任务。尽管目前的基准测试表明 LLMs 可以像人类开发者一样使用程序解决任务,但大多数评估仅限于简短且独立的算法任务或独立函数调用。解决具有挑战性和实际意义的任务需要能够利用各种函数调用作为工具来有效地实现数据分析和网络开发等功能。此外,使用多个工具解决任务需要通过准确理解复杂指令进行组合推理。满足这两个特点对 LLMs 来说是一个巨大的挑战。为了评估 LLMs 通过程序解决具有挑战性和实际意义的任务的能力,我们引入了 BigCodeBench,这是一个基准测试,它挑战 LLMs 从 139 个库和 7 个领域调用多个函数调用作为工具,以完成 1,140 个细粒度任务。为了严格评估 LLMs,每个任务包含 5.6 个测试用例,平均分支覆盖率为 99%。此外,我们提出了 BigCodeBench 的面向自然语言的变体 BigCodeBench-Instruct,它自动将原始文档字符串转换为仅包含必要信息的简短指令。我们对 60 个 LLMs 的广泛评估表明,LLMs 尚未能够遵循复杂的指令来精确地使用函数调用,得分高达 60%,明显低于人类的 97% 的表现。结果强调了在这一领域进一步发展的必要性。
心理疾病是一个全球性的挑战,合格的心理健康专业人员的短缺加剧了这一问题。由于顺序文本数据的复杂性和语言模型有限的上下文长度,当前的 LLMs 从社交媒体帖子中预测心理疾病具有挑战性。现有的基于语言模型的方法将单个数据实例拆分为多个块,以弥补有限的上下文大小。然后将预测模型分别应用于每个块,并选择投票最多的输出作为最终预测。这会导致帖子间依赖关系和重要时间变化信息的丢失,从而导致性能下降。我们提出了一种新的框架,该框架首先将按时间顺序排列的社交媒体帖子的长序列压缩成一系列数字。然后,我们使用这种时间变化的表示来进行心理疾病分类。我们通过在三种不同的精神状况(抑郁症、自残和厌食症)中优于当前的 SOTA 来证明我们框架的泛化能力,F1 分数绝对提高了 5%。我们研究了当前数据实例落在语言模型上下文长度范围内的状况,并展示了突出文本数据时间属性重要性的实证结果。此外,我们利用所提出的框架进行跨领域研究,探索跨疾病的共性以及跨领域数据使用的可能性。
视觉和语言导航 (VLN) 旨在通过整合视觉和语言线索来引导自主代理在现实世界环境中进行导航。尽管地面级导航取得了显著进展,但使用这些模态进行空中导航的探索仍然有限。这种差距主要源于缺乏适合现实世界城市规模空中导航研究的资源。为了弥补这一差距,我们介绍了 CityNav,一个专门为语言引导的空中导航而设计的新数据集,该数据集位于真实城市的逼真 3D 环境中。CityNav 包含 32,000 条自然语言描述,这些描述与人类演示轨迹配对,通过新开发的基于 Web 的 3D 模拟器收集。每个描述都识别了一个导航目标,利用实际城市中地标的名称和位置。作为解决这一挑战的第一步,我们提供了导航代理的基线模型,这些模型包含一个内部 2D 空间地图,代表描述中引用的地标。我们在 CityNav 数据集上对最新的空中导航方法以及我们提出的基线模型进行了基准测试。结果表明:(i)我们训练于人类演示轨迹的空中代理模型,其性能大大优于那些训练于最短路径轨迹的模型;(ii)在城市规模上,包含 2D 空间地图信息显着且稳健地提高了导航性能;(iii)尽管使用了地图信息,但我们具有挑战性的 CityNav 数据集表明,我们的基线模型与人类性能之间仍然存在持续的性能差距。为了促进空中 VLN 的进一步研究,我们在 https://water-cookie.github.io/city-nav-proj/ 公开了数据集和代码。