基于偏好的强化学习 (PbRL) 在单智能体环境中取得了重大进展,但尚未在多智能体框架中进行研究。另一方面,在确保任务成功完成的同时对多个智能体之间的合作进行建模,特别是人机协作环境,是一个具有挑战性的问题。为此,我们首次对多智能体 PbRL 进行了研究,将单智能体 PbRL 扩展到双智能体协作环境,并将其表述为一个人机 PbRL 合作博弈,其中 RL 智能体询问环路中的人类以引出任务目标和人类对联合团队行为的偏好。在这种博弈公式下,我们首先引入了“人类灵活性”的概念,根据人类是否更愿意遵循固定策略或动态适应 RL 智能体来评估团队绩效。其次,我们研究了 RL 智能体对人类策略的不同访问权限。我们重点介绍了这两个维度上的一个特例,我们称之为“指定编排”,其中人类的灵活性最低,智能体可以完全访问人类策略。我们通过一个游戏化的用户研究证明了考虑人类灵活性的必要性和指定编排的实用性。我们通过基于机器人运动的领域评估了最先进的 PbRL 算法在人机协作设置中的表现,这些领域明确要求强制合作。我们的研究结果强调了 PbRL 在改变人类灵活性以及智能体对人类策略的访问权限方面所面临的挑战。最后,我们从用户研究和实证结果中得出见解,并得出结论,指定编排可以被视为未来人机协作场景中 PbRL 性能的上限。
基于神经网络的机器学习模型训练需要大量数据集,这些数据集可能包含敏感信息。然而,这些模型不应该暴露来自这些数据集的私有信息。差分隐私 SGD [DP-SGD] 要求修改标准随机梯度下降 [SGD] 算法来训练新的模型。本文简要介绍了一种新的正则化策略,以更有效的方式实现相同目标。
与大型语言模型 (LLMs) 相比,大型视觉-语言模型 (LVLMs) 还可以接受图像作为输入,因此展现出更有趣的涌现能力,并在各种视觉-语言任务中展现出令人印象深刻的性能。受 LLMs 中文本提示的启发,视觉提示已被探索以增强 LVLMs 感知视觉信息的能力。然而,以往的视觉提示技术仅处理视觉输入而不考虑文本查询,限制了模型遵循文本指令完成任务的能力。为了填补这一空白,在这项工作中,我们提出了一种新的提示技术,称为图像上的注意力提示,它只是简单地将文本查询引导的注意力热图叠加在原始输入图像上,并有效地增强了 LVLM 在各种任务上的性能。具体来说,我们使用 CLIP 等辅助模型为输入图像生成一个依赖于文本查询的注意力热图。然后,热图简单地乘以原始图像的像素值,以获得 LVLM 的实际输入图像。在各种视觉-语言基准上的大量实验验证了我们技术的有效性。例如,图像上的注意力提示分别将 LLaVA-1.5 在 MM-Vet 和 LLaVA-Wild 基准上的性能提高了 3.8% 和 2.9%。
尽管语言建模目标已被证明与压缩密切相关,但令人惊讶的是,现代大型语言模型 (LLM) 并未被用于实际的文本压缩系统。本文对基于神经网络和 Transformer 的压缩技术进行了深入分析,以回答这个问题。我们比较了传统的文本压缩系统与基于神经网络和 LLM 的文本压缩方法。虽然基于 LLM 的系统显著优于传统压缩方法,但它们在实践中极不实用。具体而言,LLMZip 是一种最近推出的使用 Llama3-8B 的文本压缩系统,它需要 9.5 天才能压缩 10 MB 的文本,尽管压缩率有了巨大的提高。为了克服这个问题,我们提出了 FineZip——一种新型的基于 LLM 的文本压缩系统,它结合了在线记忆和动态上下文的想法,极大地减少了压缩时间。与 9.5 天相比,FineZip 可以在大约 4 小时内压缩上述语料库,比 LLMZip 提高了 54 倍,并且性能相当。FineZip 以很大的优势优于传统的算法压缩方法,压缩率提高了大约 50%。通过这项工作,我们迈出了使使用 LLM 进行无损文本压缩成为现实的第一步。虽然 FineZip 在这方面迈出了一大步,但 LLM 仍然不是大规模文本压缩的可行解决方案。我们希望我们的工作为未来的研究和创新解决这个问题铺平道路。
生成式 AI 系统在创建文本、代码和图像方面展现出令人印象深刻的能力。受工业界“装配设计”研究丰富历史的启发,我们提出一个新问题:生成式机器人装配设计 (GDfRA)。该任务是根据自然语言提示(例如,“长颈鹿”)和可用物理组件(例如 3D 打印积木)的图像生成装配。输出是一个装配,这些组件的空间排列,以及机器人构建此装配的指令。输出必须 1) 类似于请求的对象,并且 2) 可以由具有吸盘夹持器的 6 自由度机械臂可靠地组装。然后,我们介绍了 Blox-Net,一个 GDfRA 系统,它将生成式视觉语言模型与计算机视觉、仿真、扰动分析、运动规划和物理机器人实验中成熟的方法相结合,以解决一类 GDfRA 问题,而无需大量人工监督。Blox-Net 在其设计的装配的“可识别性”方面(例如,由 VLM 判断是否类似于长颈鹿)取得了 63.5% 的 Top-1 准确率。这些设计在经过自动扰动重新设计后,可以由机器人可靠地组装,在 10 次连续组装迭代中实现了近乎完美的成功率,只有在组装之前的重置过程中需要人工干预。令人惊讶的是,从文本词语(“长颈鹿”)到可靠的物理组装的整个设计过程都是无需人工干预完成的。
大型语言模型的预训练传统上依赖于人类专家来制定启发式方法以提高语料库质量,迄今为止已经开发出许多规则。然而,这些规则缺乏灵活性,无法有效地解决单个示例的独特特征。同时,对每个示例应用定制规则对于人类专家来说是不切实际的。在本文中,我们证明了即使是参数少至 0.3B 的小型语言模型,也能展现出与人类专家相当的强大数据细化能力。我们引入了编程每个示例 (ProX),这是一个新颖的框架,它将数据细化视为一项编程任务,使模型能够通过生成和执行细粒度的操作(例如字符串规范化)来细化语料库,从而对每个单独的示例进行大规模处理。实验结果表明,在 ProX 策划的数据上预训练的模型在各种下游基准测试中,比原始数据或通过其他选择方法过滤的数据的性能高出 2% 以上。它的有效性涵盖了各种模型尺寸和预训练语料库,包括 C4、RedPajama-V2 和 FineWeb。此外,ProX 在特定领域的持续预训练中展现出巨大的潜力:在没有特定领域设计的情况下,在 ProX 细化的 OpenWebMath 上训练的模型优于人工设计的基于规则的方法,在 Mistral-7B 上平均准确率提高了 7.6%,在 Llama-2-7B 上提高了 14.6%,在 CodeLlama-7B 上提高了 20.3%,所有这些都在 100 亿个词元内,与在 2000 亿个词元上训练的 Llemma-7B 等模型相当。进一步分析表明,ProX 显着节省了训练 FLOPs,为高效的 LLM 预训练提供了有希望的途径。我们正在开源 ProX,包括超过 1000 亿个语料库、模型,并共享所有训练和实现细节,以实现可重复的研究和未来的创新。代码:https://github.com/GAIR-NLP/ProX
本体论承诺,即使用的概念、关系和假设,是定性推理 (QR) 模型的基石。然而,处理原始输入的最新技术是深度神经网络 (DNN),如今通常基于多模态基础模型。这些模型自动学习概念及其相应推理的丰富表示。不幸的是,学习到的定性知识是不透明的,无法轻松检查、验证或适应现有的 QR 模型。到目前为止,可以将预定义的概念与 DNN 的潜在表示相关联,但可提取的关系主要限于语义相似性。作为 QR 用于验证和验证 DNN 的下一步:具体来说,我们提出了一种方法,该方法从给定叶概念集的多模态 DNN 中提取学习到的超类层次结构。在幕后,我们 (1) 使用 DNN 的文本输入模态获取叶概念嵌入;(2) 对它们应用层次聚类,使用 DNN 通过向量距离编码语义相似性;(3) 使用在 QR 中可用的本体中的搜索来标记由此获得的父概念。初步评估研究表明,可以从最先进的基础模型中提取有意义的本体类层次结构。此外,我们展示了如何根据给定的本体验证和验证 DNN 学习到的表示。最后,我们讨论了 QR 方面的潜在未来应用。
近年来,一些研究调查了低精度累加,报告了跨各种平台的吞吐量、功耗和面积的改进。然而,伴随的提议只考虑了量化感知训练 (QAT) 范式,其中模型在循环中进行量化的情况下进行微调或从头开始训练。随着模型规模的不断增长,QAT 技术变得越来越昂贵,这促使了最近的训练后量化 (PTQ) 研究热潮。据我们所知,我们的研究标志着对 PTQ 设置中累加器感知量化的首次正式研究。为了弥合这一差距,我们引入了 AXE,这是一个实用的累加器感知扩展框架,旨在为现有的逐层 PTQ 算法提供溢出避免保证。我们从理论上论证了 AXE,并通过在两种最先进的 PTQ 算法 GPFQ 和 OPTQ 之上实现它来证明其灵活性。我们进一步推广了 AXE 以首次支持多级累加,为完整的数据路径优化和扩展到大型语言模型 (LLM) 打开了大门。我们在图像分类和语言生成模型上评估了 AXE,并观察到累加器位宽和模型精度之间的权衡比基线方法有了显著改进。
在医疗领域,大规模数据集的有限可用性和劳动密集型的标注过程阻碍了深度模型的性能。基于扩散的生成式增强方法为解决这一问题提供了一种有前景的解决方案,已被证明在推进下游医疗识别任务方面有效。然而,现有的工作缺乏足够的语义和顺序可控性,难以进行具有挑战性的视频/3D 序列生成,并且忽略了对噪声合成样本的质量控制,导致合成数据库不可靠,严重限制了下游任务的性能。在这项工作中,我们提出了 Ctrl-GenAug,这是一种新颖且通用的生成式增强框架,它能够实现高度语义和顺序定制的序列合成,并抑制错误合成的样本,以帮助医疗序列分类。具体来说,我们首先设计了一个多模态条件引导序列生成器,用于可控地合成促进诊断的样本。集成了一个顺序增强模块来增强生成样本的时间/立体 coherence。然后,我们提出了一种噪声合成数据过滤器,以在语义和顺序层面上抑制不可靠的案例。在 3 个医疗数据集上进行了大量的实验,使用在 3 种范式上训练的 11 个网络,全面分析了 Ctrl-GenAug 的有效性和通用性,特别是在代表性不足的高风险人群和域外条件下。
气候变化和日益加剧的干旱对全球水资源管理构成了重大挑战。这些问题导致严重的水资源短缺,威胁着生态系统、农业和人类社区。为了推进应对这些挑战的斗争,我们提出了一套新的数据集 SEN12-WATER,以及一个使用新颖的端到端深度学习 (DL) 框架进行主动干旱相关分析的基准。该数据集被标识为时空数据立方体,整合了 SAR 极化、高程、坡度和多光谱光学波段。我们的 DL 框架能够分析和估算感兴趣水库随时间的耗水量,通过检查水量等物理量的时态变化,揭示了对干旱分析的重大洞察。我们的方法利用了所提数据集的多时态和多模态特性,能够实现强大的泛化并加深对干旱的理解,从而促进气候变化适应力和可持续水资源管理。所提出的框架包括多个组件,例如从 SAR 数据中去除斑点噪声、通过 U-Net 架构进行水体分割、时间序列分析以及时间分布卷积神经网络 (TD-CNN) 的预测能力。结果通过专用传感器和 (定制) 指标(如精确度、召回率、联合交集、均方误差、结构相似性指数度量和峰值信噪比)在地面获取的真实数据进行验证。