新提出的广义指称表达式分割 (GRES) 通过引入复杂的多目标/非目标场景,扩展了经典 RES 的表述。最近的方法通过直接扩展已被广泛采用的 RES 框架并加入目标存在性识别来解决 GRES 问题。然而,这些方法倾向于将多粒度目标信息编码到单个表示中,这使得难以精确表示不同粒度的全面目标。此外,在所有指称场景中简单的二元目标存在性识别未能具体说明其内在差异,导致目标理解上的歧义。为了解决上述问题,我们提出了一种用于 GRES 的**计数感知分层解码**框架 (CoHD)。通过利用视觉语言层次结构将复杂的指称语义分解成不同的粒度,并通过内部和外部选择动态聚合,CoHD 增强了多粒度理解,并从层次结构的互惠中受益。此外,我们通过将多目标/单目标/非目标场景体现在计数和类别级别的监督中,从而融入计数能力,促进了全面的目标感知。在 gRefCOCO、Ref-ZOM、R-RefCOCO 和 RefCOCO 基准测试上的实验结果证明了 CoHD 的有效性和合理性,它以显著的优势超过了最先进的 GRES 方法。代码可在\href{https://github.com/RobertLuo1/CoHD}{此处}获取。
多模态大型语言模型 (MLLM) 被广泛认为是探索通用人工智能 (AGI) 的关键。MLLM 的核心在于其实现跨模态对齐的能力。为了实现这一目标,当前的 MLLM 通常遵循两阶段训练范式:预训练阶段和指令微调阶段。尽管取得了成功,但这些模型的对齐能力建模仍存在不足。首先,在预训练阶段,模型通常假设所有图像文本对都均匀对齐,但实际上不同图像文本对之间的对齐程度并不一致。其次,目前用于微调的指令包含各种任务,不同任务通常需要不同程度的对齐能力,但之前的 MLLM 忽略了这些差异化的对齐需求。为了解决这些问题,我们提出了一种新的多模态大型语言模型 AlignGPT。在预训练阶段,我们不将所有图像文本对同等对待,而是根据其对齐程度将它们分成不同的组。然后,模型被训练以学习不同对齐级别的表示。在指令微调阶段,我们自适应地组合这些对齐级别的表示,以满足不同任务的动态对齐需求。大量的实验结果表明,我们的模型在 12 个基准测试中取得了具有竞争力的性能。
价值函数分解方法常用于合作多智能体强化学习中,其中QMIX受到了广泛关注。许多基于QMIX的方法引入了联合动作值和个体动作值之间的单调性约束,以实现去中心化执行。然而,这种约束限制了价值分解的表示能力,限制了它可以表示的联合动作值,并阻碍了最优策略的学习。为了解决这一挑战,我们提出了潜在最优联合动作加权QMIX (POWQMIX)算法,该算法识别潜在的最优联合动作,并在训练过程中为这些联合动作的对应损失分配更高的权重。我们从理论上证明,这种加权训练方法可以保证恢复最优策略。在矩阵博弈、难度增强的捕食者-猎物和星际争霸II多智能体挑战环境中的实验表明,我们的算法优于最先进的基于价值的多智能体强化学习方法。
基于库的方法以其在快速运动规划中的高效性而闻名,这得益于其从预计算库中检索和适应经验的能力。本文提出了一种构建和利用此类库的原理性方法——CoverLib。CoverLib迭代地向库中添加经验-分类器对,其中每个分类器对应于问题空间中经验的可适应区域。这个迭代过程是一个主动过程,因为它根据经验有效覆盖未覆盖区域的能力来选择下一个经验。在查询阶段,这些分类器用于选择预期可适应给定问题的经验。实验结果表明,CoverLib有效地缓解了全局(例如,基于采样的)和局部(例如,基于优化的)方法中可规划性和速度之间的权衡。因此,它在问题域上实现了快速规划和高成功率。此外,由于其适应算法无关性,CoverLib可以无缝地与各种适应方法集成,包括基于非线性规划和基于采样的算法。
近年来,人工智能生成内容(AIGC)发展迅速,促进了音乐、图像和其他艺术形式在众多行业的创作。然而,目前的图像和视频到音乐合成模型难以捕捉视觉内容所传达的细微情感和氛围。为了填补这一空白,我们提出了“莫扎特的触感”(Mozart's Touch)这一多模态音乐生成框架,该框架能够生成与跨模态输入(如图像、视频和文本)相符的音乐。该框架包含三个关键组件:多模态字幕模块、大型语言模型(LLM)理解与桥接模块以及音乐生成模块。“莫扎特的触感”不像传统的端到端方法那样,它利用大型语言模型(LLM)准确地解释视觉元素,无需训练或微调音乐生成模型,通过清晰、可解释的提示提高效率和透明度。我们还引入了“LLM桥接”方法来解决不同模态描述性文本之间的异构表示挑战。通过一系列客观和主观评估,我们证明了“莫扎特的触感”优于现有的最先进模型。我们的代码和示例可在https://github.com/TiffanyBlews/MozartsTouch获取。
大型语言模型 (LLM) 在许多数学推理基准测试中取得了令人瞩目的成功。然而,人们越来越担心,其中一些性能实际上反映了数据集污染,即与基准问题非常相似的数据泄露到训练数据中,而不是真正的推理能力。为了严格调查这一说法,我们制作了小学数学 1000 (GSM1k) 数据集。GSM1k 的设计旨在模仿已建立的 GSM8k 基准(衡量小学数学推理的黄金标准)的风格和复杂性。我们确保这两个基准在人类解答率、解决方案步骤数、答案数量级等重要指标上具有可比性。当在 GSM1k 上评估领先的开放源代码和闭源 LLM 时,我们观察到准确率下降高达 8%,几个模型系列显示出几乎所有模型规模都存在系统性过拟合的证据。进一步的分析表明,模型生成 GSM8k 例子的概率与其在 GSM8k 和 GSM1k 之间的性能差距之间存在正相关关系 (Spearman's r^2 = 0.36),这表明一些模型可能部分记忆了 GSM8k。然而,许多模型,特别是那些处于前沿的模型,几乎没有显示出过拟合的迹象,并且所有模型都广泛地展示了对保证不在其训练数据中的新数学问题的泛化能力。
近年来,由深度学习(DL)技术驱动的软件系统极大地促进了人们生活的方方面面。作为这些深度学习系统的基石,各种深度学习库承担着底层的优化和计算任务。然而,与传统软件一样,深度学习库也并非没有漏洞,这些漏洞可能对用户的个人财产和安全构成严重威胁。研究深度学习库的特性、相关的漏洞以及相应的测试方法,对于增强深度学习系统的安全性以及推动深度学习技术的广泛应用至关重要。本文概述了与各种深度学习库相关的测试研究,讨论了现有方法的优缺点,并为深度学习库的应用提供指导和参考。本文首先介绍了深度学习底层库的工作流程以及三种深度学习库(即深度学习框架、深度学习编译器和深度学习硬件库)的特性。然后,本文对深度学习底层库的漏洞和测试进行了定义。此外,本文还分别总结了针对这些深度学习库的现有测试方法和工具,并分析了它们的有效性和局限性。最后,本文还讨论了深度学习库测试中存在的挑战,并概述了未来研究的潜在方向。
基于静态预收集通用数据集训练的大型语言模型 (LLM) 近期取得的成功,激发了众多研究方向和应用。其中一个方向旨在解决将预训练 LLM 集成到动态数据分布、任务结构和用户偏好中的非平凡挑战。针对特定需求定制的预训练 LLM,通常会在之前的知识领域出现显著的性能下降——这种现象被称为“灾难性遗忘”。虽然在持续学习 (CL) 社区中已得到广泛研究,但在 LLM 领域却呈现出新的表现形式。在本综述中,我们全面概述了 CL 背景下 LLM 的当前研究进展。本综述分为四个主要部分:我们首先概述了持续学习 LLM,包括两个连续性方向:垂直连续性(或垂直持续学习),即从一般能力到特定能力的持续适应;以及水平连续性(或水平持续学习),即跨时间和领域的持续适应(第三节)。然后,我们总结了在现代 CL 背景下学习 LLM 的三个阶段:持续预训练 (CPT)、领域自适应预训练 (DAP) 和持续微调 (CFT)(第四节)。然后,我们概述了使用 LLM 进行持续学习的评估协议,以及当前可用的数据源(第五节)。最后,我们讨论了关于 LLM 持续学习的有趣问题(第六节)。本综述中审查的全部论文列表可在 https://github.com/Wang-ML-Lab/llm-continual-learning-survey 获取。
我们研究了基于用户对语言代理输出所做的编辑来进行基于大型语言模型 (LLM) 的语言代理的交互式学习。在写作助手等典型场景中,用户与语言代理交互以生成给定上下文下的响应,并可以选择编辑代理响应以根据其潜在偏好对其进行个性化处理,以及提高正确性。编辑反馈是自然生成的,使其成为改进代理与用户偏好一致性以及随着时间推移降低用户编辑成本的合适候选方案。我们提出了一种学习框架 PRELUDE,该框架基于历史编辑数据推断用户潜在偏好的描述。推断出的用户偏好描述用于定义未来生成响应的提示。这避免了微调代理,这成本高昂,难以随着用户数量的增加而扩展,甚至可能降低其在其他任务上的性能。此外,学习描述性偏好可以提高可解释性,允许用户查看和修改学习到的偏好。然而,用户偏好可能很复杂、微妙,并且会根据上下文而变化,这使得学习具有挑战性。为了解决这个问题,我们提出了一种简单而有效的算法 CIPHER,该算法利用 LLM 根据用户编辑来推断给定上下文下的用户偏好。将来,CIPHER 将从历史上 k 个最接近的上下文中检索推断出的偏好,并形成用于响应生成的聚合偏好。我们引入了两个交互式环境——摘要和电子邮件撰写,并使用 GPT-4 模拟用户进行评估。在这两项任务上,CIPHER 通过实现最低的编辑距离成本而优于几个基线,同时LLM查询成本仅略有增加。我们的分析报告表明,CIPHER 学习到的用户偏好与真实的潜在偏好显示出显著的相似性。
人工智能(AI)彻底改变了软件开发,从特定任务的代码(软件1.0)转向基于神经网络的方法(软件2.0)。然而,在工程软件中应用这种转变面临着挑战,包括代理模型精度低、逆向设计中的维度灾难以及物理模拟复杂性的增加。我们引入了一种基于插值理论和张量分解的插值神经网络 (INN),通过改进数据训练、偏微分方程求解和参数校准来实现工程软件 2.0。与传统的全连接神经网络 (MLP) 或物理信息神经网络 (PINN) 相比,INN 在获得相当的模型精度的情况下,可训练/可求解参数的数量减少了几个数量级。在金属增材制造中得到验证,INN 快速构建了激光粉末床熔合 (L-PBF) 传热模拟的精确代理模型,在单块 GPU 上不到 15 分钟内即可实现 10 毫米路径的亚 10 微米分辨率。这为工程软件所有关键领域带来了变革性的进步。