虽然高性能语言模型通常在数千亿单词上进行训练,但人类儿童只需少量数据就能成为流利的语言使用者。他们接收到的数据有哪些特征,这些特征如何支持语言建模目标?为了研究这个问题,我们在2900万字的英语儿童导向语音和一个新的匹配合成数据集(TinyDialogues)上训练了GPT-2和RoBERTa模型,并将其与OpenSubtitles、维基百科和来自BabyLM挑战赛的异构数据集混合体进行了比较。我们使用发展性启发的评估方法来评估这些模型的句法和语义知识。通过预训练实验,我们测试了儿童训练数据的全局发展顺序或局部语篇顺序相对于其他数据集是否支持高性能。数据的局部属性会影响模型结果,但令人惊讶的是,全局属性不会。此外,儿童语言输入对于训练语言模型并非具有独特的价值。这些发现支持这样的假设:与其说是更好的数据,不如说是儿童的学习算法比目前的语言建模技术具有更高的数据效率。
大型语言模型 (LLM) 的对齐旨在防止模型生成与人类预期不符的内容,这可能导致伦理和法律问题。近年来,来自人类反馈的强化学习 (RLHF) 成为实现对齐最突出的方法。由于 RLHF 阶段在稳定性和可扩展性方面面临挑战,这些挑战源于多个模型之间复杂的交互作用,研究人员正在探索替代方法以实现与 RLHF 相当的效果。然而,这些方法通常依赖于大型高质量数据集。尽管某些方法考虑生成额外数据以扩展数据集,但它们通常将模型训练和数据生成视为独立的静态过程,忽略了这两个过程高度相互依赖的事实,导致生成的數據利用效率低下。为了解决这个问题,我们提出了 PLE,即渐进式标签增强 (Progressively Label Enhancement) 用于 LLM 对齐,这是一个根据生成数据的质量动态调整模型训练过程的框架。具体来说,我们提示模型针对原始查询和由一组精心设计的原则引导的查询生成响应,然后利用动态阈值根据其相应的奖励分数确定两种响应的适当训练方法。实验结果证明了 PLE 与现有 LLM 对齐方法相比的有效性。
近年来,大型视觉语言模型 (LVLMs) 取得了快速进展,但“幻觉”问题作为一个显著瓶颈,阻碍了其在现实世界的应用。现有方法主要从两个方面缓解这个问题:一种方法利用额外的知识,例如使用精选数据集对LVLMs进行鲁棒指令微调或采用辅助分析网络,这不可避免地会增加额外成本;另一种方法称为对比解码,通过手动扰乱视觉或指令原始输入来诱导幻觉,并通过对比扰动和原始LVLMs的输出结果来减轻幻觉。然而,这些方法依赖于经验性的整体输入扰动,并使推理成本加倍。为了避免这些问题,我们提出了一种简单而有效的方法,称为自省解码 (SID)。我们的实证研究表明,预训练的LVLMs可以根据之前的视觉和文本(包括指令和生成的文本)标记,自省地评估视觉标记的重要性。我们开发了上下文和文本感知标记选择 (CT2S) 策略,该策略仅保留LVLMs早期层之后不重要的视觉标记,以自适应地放大文本引导的幻觉,从而在自回归解码过程中实现。这种方法确保在早期层吸收的多模态知识会诱导出多模态上下文,而不是漫无目的的幻觉。随后,原始标记对数概率减去放大的视觉和文本关联幻觉,引导LVLMs忠实地进行解码。大量的实验表明,SID在各种指标下都能生成更少幻觉和更高质量的文本,而无需额外的知识和大量的额外计算负担。
实体链接 (EL) 和关系抽取 (RE) 是自然语言处理中的基础任务,是广泛应用的关键组成部分。本文提出了一种用于 EL 和 RE 的检索器-阅读器架构 ReLiK,其中,给定输入文本,检索器模块负责识别文本中可能出现的候选实体或关系。随后,阅读器模块的任务是辨别相关的检索到的实体或关系,并将其与相应的文本片段对齐。值得注意的是,我们提出了一种创新的输入表示方法,该方法将候选实体或关系与文本一起纳入,从而能够在单次前向传递中链接实体或提取关系,并充分利用预训练语言模型的上下文理解能力,这与以往基于检索器-阅读器的其他方法(需要对每个候选进行一次前向传递)形成对比。我们的 EL 和 RE 方法在领域内和领域外基准测试中均取得了最先进的性能,同时使用了学术预算训练,推理速度比竞争对手快达 40 倍。最后,我们展示了如何将我们的架构无缝用于信息抽取 (cIE),即 EL + RE,并通过使用共享阅读器同时提取实体和关系来设定新的最先进水平。
如今,对更强大的计算资源的需求不断增长,人们正在广泛研究替代性的先进计算范式。人们付出了巨大的努力来摆脱传统的冯·诺依曼架构。内存计算已成为电子领域的一种可能的解决方案,它可以解决内存和计算处理器之间臭名昭著的瓶颈问题,从而降低数据的有效吞吐量。在光子学领域,新的方案试图在一个单一器件中同时放置计算处理器和内存。光子学提供了在空间、时间以及频率(或等效地,波长)上多路复用数据流的灵活性,这使其非常适合并行计算。在这里,我们通过数值模拟展示了如何使用时分和波分复用 (WDM) 在单个光子芯片上同时解决四个独立的任务,作为我们方案的概念验证。该系统是一个基于微环谐振器 (MRR) 的时延储备计算 (TDRC) 系统。所处理的任务涵盖不同的应用:时间序列预测、波形信号分类、无线信道均衡和雷达信号预测。该系统还针对同一任务的最多 10 个实例进行了同时计算测试,并表现出优异的性能。通过对充当所研究神经网络方案中神经元的节点使用时分复用,减小了系统的占位面积。WDM 用于波长通道的并行化,每个通道处理一个任务。通过调整每个光学通道的输入功率和频率,我们可以为每个任务实现与专注于单任务操作的最新报告中引用的性能相当的水平……
近年来机器学习,特别是自然语言处理(NLP)的进步,导致了在大型数据集上训练的复杂模型的开发,但也引发了关于敏感信息泄露的担忧。作为回应,欧盟通用数据保护条例 (GDPR) 等监管措施推动了人们对机器遗忘技术(Machine Unlearning)的兴趣日益增长,这种技术使模型能够选择性地忘记特定的数据条目。早期的研究方法主要依赖于预处理方法,而最近的研究则转向了基于训练的遗忘技术。尽管这些方法有效,但大多数现有方法都需要访问原始训练数据,而这些数据通常是无法访问的。此外,直接应用遗忘技术会以损害模型表达能力为代价。为了解决这些挑战,我们引入了迭代对比遗忘 (ICU) 框架,该框架包含三个核心组件:一个知识遗忘归纳模块,旨在通过遗忘损失来去除特定知识;一个对比学习增强模块,用于在纯粹的遗忘目标下保持模型的表达能力;以及一个迭代遗忘细化模块,动态评估特定数据片段上的遗忘程度并进行迭代更新。实验结果证明了我们的 ICU 方法在遗忘敏感信息的同时保持模型整体性能的有效性,为注重隐私的机器学习应用提供了一种有前景的解决方案。
大型语言模型和视觉语言模型等生成模型输出质量的评估面临着显著挑战。传统的评估方法通常依赖于耗费资源的人工评估,或与人工判断的相关性较低的自动指标。另一种常见的方法是使用深度学习系统,这不仅消耗大量的计算资源和时间,而且需要大量的训练数据。本研究引入了一个无需调参的框架 ReFeR,该框架旨在通过利用两级层次结构的大型语言模型和视觉语言模型本身来评估文本和图像等生成输出。我们对 ReFeR 框架进行了严格的评估,涵盖四个不同的评估任务。该框架不仅提高了评估的准确性,超越了之前的基准,而且能够生成建设性的反馈。有趣的是,该框架也适用于推理任务。在四个推理任务上的实验表明,该框架具有优越的集体推理能力。我们提出了该框架的两个变体:ReFeR-Turbo,针对加速性能进行了优化;ReFeR-Lite,提供了一种更经济高效的解决方案。ReFeR-Lite 的效率提高了约 7.7 倍,同时与 ReFeR-Turbo 的准确性相当。我们公开了代码、数据和 PIP 包。
利用大型语言模型(LLM)工具对于将AI智能体应用于现实世界至关重要。目前普遍采用的方法包括使用演示进行少样本提示或使用专家标注进行微调。然而,仅仅依靠上下文演示可能无法涵盖复杂工具和任务所需的足够知识。此外,由于专家标注成本高昂且难以泛化到新工具,因此基于解决方案路径的训练也受到阻碍。可泛化工具使用的核心挑战在于理解工具的“元”特性或基本性质,这些特性可在不同任务中转移,例如因果关系和约束条件。本文提出了一种名为MetaTool的新型工具学习方法,旨在实现跨任何可重用工具集的泛化。我们的方法结合了一种源自一系列元任务的自监督增强技术,这涉及预测工具执行过程中被掩盖的元素。该自监督程序能够大规模生成高质量的QA数据,这对于监督工具理解非常方便。通过将元任务数据融入面向任务的训练中,我们的方法显著提高了开源LLM的性能,在基于工具的规划和聊天场景中均取得了与ChatGPT相当的结果。通过大规模指令微调,MetaTool模型在新的任务上展现了令人印象深刻的零样本泛化能力。
GPU计算能力的快速发展超过了内存容量和带宽的增长,从而在大型语言模型(LLM)推理中造成了瓶颈。训练后量化是解决LLM推理中内存相关瓶颈的主要方法,但它在低于4位精度时会造成严重的性能下降。本文通过研究低位宽模型(特别是三元语言模型,TriLMs)的预训练来解决这些挑战,将其作为传统浮点模型(FloatLMs)及其训练后量化版本(QuantLMs)的替代方案。我们提出了Spectra LLM套件,这是第一个涵盖多种位宽的开放式LLM套件,包括FloatLMs、QuantLMs和TriLMs,参数范围从9900万到39亿,训练数据为3000亿个token。我们的综合评估表明,TriLMs在模型大小(以位计)方面具有优越的扩展性。令人惊讶的是,在参数规模超过10亿的情况下,在各种基准测试中,TriLMs在给定位数下始终优于其QuantLM和FloatLM对应模型。值得注意的是,39亿参数的TriLM在所有基准测试中都匹配了39亿参数的FloatLM的性能,尽管其位数少于8.3亿参数的FloatLM。总的来说,这项研究为低位宽语言模型的可行性和可扩展性提供了宝贵的见解,为开发更高效的LLM铺平了道路。为了增强对低位宽模型的理解,我们正在发布Spectra套件的500多个中间检查点,地址为\href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite}。
GPT-4V强大的多模态能力引发了人们对其在自动化放射学报告撰写中应用的兴趣,但缺乏全面的评估。本研究对GPT-4V在两个胸部X光报告数据集(MIMIC-CXR和IU X-Ray)上生成放射学报告的能力进行了系统评估。我们尝试通过不同的提示策略直接使用GPT-4V生成报告,发现其在词汇指标和临床效能指标上均表现极差。为了理解其低性能的原因,我们将任务分解为两个步骤:1)从图像预测医学病症标签的医学图像推理步骤;2)从(真实)病症生成报告的报告合成步骤。我们发现,GPT-4V在图像推理方面的性能在不同提示下始终较低。事实上,模型预测的标签分布保持不变,无论图像上是否存在哪些真实病症,这表明该模型并未有效地解读胸部X光片。即使在报告合成中给定真实病症,其生成的报告也比微调后的LLaMA-2更不准确,也更不自然。总而言之,我们的发现对在放射学工作流程中使用GPT-4V的可行性提出了质疑。