基于 LLM 提示的模块化 AI 系统可以用于开发复杂任务,以最大程度地缩短部署时间。然而,这些系统并不总是表现良好,如何利用部署中收集的数据轨迹来改进它们仍然是一个开放性的挑战。数据轨迹包含 LLM 的输入和输出,但 LLM 的标注存在噪声。我们假设主动标签校正 (ALC) 可以应用于收集到的数据,以训练更小的特定任务改进模型,这些模型可以替代基于 LLM 的模块。在本文中,我们研究了三个 GPT-3.5 标注数据集中的噪声及其通过人工反馈进行的去噪。我们还提出了一种新方法 ALC3,该方法迭代地对训练数据集应用三个更新:自动校正、使用人工反馈进行校正和过滤。我们的结果表明,ALC3 可以实现预言性能,在三个不同的 NLP 任务中,其反馈示例数量比数据集中噪声示例数量少 17-24%。
联邦学习(FL)已成为一种很有前途的解决方案,可在不牺牲数据隐私的情况下,在多个客户端之间协作学习共享模型。然而,由于联邦学习的固有属性,例如数据异质性和参与方选择,联邦学习的模型往往会对某些人口群体(例如种族和性别群体)产生偏见。与集中式学习不同,缓解联邦学习中的偏见尤其具有挑战性,因为私有训练数据集及其敏感属性通常无法直接访问。该领域的大多数先前研究仅关注全局公平性,而忽略了单个客户端的局部公平性。此外,现有方法通常需要共享有关客户端本地数据集的敏感信息,这是不可取的。为了解决这些问题,我们提出了 GLOCALFAIR,这是一个客户端-服务器协同设计公平框架,它可以在无需了解客户端私有数据集的敏感统计信息的情况下,共同提高联邦学习中的全局和局部群体公平性。具体而言,我们利用约束优化在客户端侧强制执行局部公平性,并在服务器端采用公平感知的基于聚类的聚合,以进一步确保不同敏感群体之间的全局模型公平性,同时保持较高的效用。在两个图像数据集和一个带有各种最先进公平基线的表格数据集上的实验表明,GLOCALFAIR 可以在全局和局部数据分布下实现增强的公平性,同时保持良好的效用和客户端公平性水平。
大型语言模型 (LLM) 近期取得成功的关键原因之一是它们的**上下文学习**能力,这使得可以通过少量相关演示来快速将其适应到下游文本任务。虽然最近已经开发出用于需要文本和图像的任务的大型视觉语言模型 (VLM),但它们在视觉信息上的上下文学习能力普遍不足,特别是在理解和生成关于视频的文本方面。在这项工作中,我们实现了**E**mergent **I**n-context **Le**arning on **V**ideos (\eilev{}),这是一种新颖的训练范式,通过捕捉先前工作发现的对于 Transformer 中上下文学习至关重要的预训练数据的关键属性,从而在视频和文本上诱导上下文学习。在我们的实验中,我们表明,经过 \eilev{} 训练的模型在针对新颖、罕见动作的少样本视频叙述方面,优于其他现成的 VLM。此外,我们证明了这些关键属性——突发分布、偏斜边缘分布和动态含义——都以不同程度地促进了 VLM 在叙述程序视频中的上下文学习能力。我们的结果、分析和经过 \eilev{} 训练的模型,为关于视频和文本上的上下文学习的涌现提供了许多见解,为未来的工作奠定了基础,以优化和扩展 VLM 以用于开放域视频理解和推理。我们的代码和演示可在 \url{https://github.com/yukw777/EILEV} 获取。
检索增强语言模型 (RALMs) 代表了大型语言模型能力的重大进步,特别是在通过利用外部知识来源来减少事实幻觉方面。然而,检索信息的可靠性并不总是得到保证。检索无关数据会导致误导性的响应,并可能导致模型忽视其固有知识,即使它拥有足够的知识来处理查询。此外,标准 RALMs 通常难以评估它们是否拥有足够的知识(无论是内在的还是检索的)来提供准确的答案。在知识不足的情况下,这些系统应该理想地在答案无法获得时以“未知”的方式响应。为了应对这些挑战,我们引入了链式笔记 (CoN),这是一种新方法,旨在提高 RALMs 在面对噪声、无关文档以及处理未知情况时的鲁棒性。CoN 的核心思想是为检索到的文档生成顺序阅读笔记,从而能够彻底评估其与给定问题的相关性,并将此信息整合起来以形成最终答案。我们使用 ChatGPT 创建了 CoN 的训练数据,随后在 LLaMa-2 7B 模型上对其进行了训练。我们在四个开放域问答基准上的实验表明,配备了 CoN 的 RALMs 显著优于标准 RALMs。值得注意的是,在给定完全噪声的检索文档的情况下,CoN 在 EM 分数上平均提高了 +7.9,在超出预训练知识范围的实时问题中,拒绝率提高了 +10.5。
特征归因通过为输入特征分配重要性分数来解释机器学习预测。虽然忠实的归因准确地反映了特征对模型预测的贡献,但失真的归因会导致误导性的解释,使其在高风险领域不可靠。事后归因不忠实性的挑战导致了自解释模型的开发。然而,自解释模型通常在性能和可解释性之间进行权衡。在这项工作中,我们开发了 Sum-of-Parts (SOP),这是一个新的框架,它将任何可微模型转换为自解释模型,其预测可以归因于特征组。SOP 框架利用预训练的深度学习模型,并配备自定义注意力模块,以端到端学习有用的特征组,无需直接监督。凭借这些功能,SOP 在 ImageNet 和 CosmoGrid 上都实现了最高性能,同时在忠实度指标方面也获得了高分。我们通过 SOP 学习的组的高纯度、强大的区分能力和在科学发现中的实用性来验证其有用性。在一个案例研究中,我们展示了 SOP 如何帮助宇宙学家发现关于星系形成的新见解。
指令增强是释放大型语言模型 (LLM) 在下游任务中全部潜力的关键步骤。现有的自指令方法主要通过上下文学习从少量初始指令中模拟新指令。然而,我们的研究发现该方法存在一个关键缺陷:即使使用 GPT4o,自指令也无法生成长度 $\ge 100$ 的复杂指令,而这在代码补全等复杂任务中是必需的。
为了解决这个问题,我们的关键见解是,仅使用十个示例微调开源 LLM 就可以生成复杂指令,这些指令在复杂推理任务中保持分布一致性。我们引入了 Ada-Instruct,这是一种通过微调开发的自适应指令生成器。我们在不同应用中实证验证了 Ada-Instruct 的有效性。结果突出了 Ada-Instruct 生成长、复杂且分布一致指令的能力。
强化学习(RL)是解决机器人操作任务的一种很有前景的方法。然而,将 RL 算法直接应用于现实世界具有挑战性。一方面,RL 依赖于数据,通常需要数百万次与环境的交互,这在现实场景中是不切实际的。另一方面,需要付出大量的工程努力来手动设计奖励函数。为了解决这些问题,本文利用基础模型。我们提出了具有基础先验的强化学习(RLFP),以利用来自策略、价值和成功奖励基础模型的指导和反馈。在这个框架内,我们引入了基础引导的演员-评论家(FAC)算法,该算法使具身代理能够通过自动奖励函数更有效地探索。我们的框架具有以下三个优点:(1)*样本效率*;(2)*最少且有效的奖励工程*;(3)*与基础模型形式无关,并且对噪声先验具有鲁棒性*。我们的方法在真实机器人和模拟中各种操作任务中取得了显着性能。在 5 个使用真实机器人的灵巧任务中,FAC 在一个小时的实时学习后,平均成功率达到 86%。在模拟的 Meta-world 中的 8 个任务中,FAC 在不到 10 万帧(约 1 小时训练)的情况下,在 7/8 个任务中实现了 100% 的成功率,超过了使用手动设计的奖励在 100 万帧内进行训练的基线方法。我们相信 RLFP 框架可以使未来的机器人能够在物理世界中自主探索和学习更多任务。
本研究旨在刻画 PAC 学习场景和在线学习场景下可实现回归的统计复杂度。先前的工作已经证明了有限胖碎裂维数对于 PAC 可学习性的充分性,以及有限缩放 Natarajan 维数的必要性,但自 Simon (SICOMP '97) 的工作以来,在更完整的刻画方面进展甚微。为此,我们首先介绍了一种针对可实现回归的极小极大实例最优学习器,并提出了一种新的维数,该维数在定性和定量上都刻画了哪些实值预测器类是可学习的。然后,我们识别了一个与图维数相关的组合维数,该维数刻画了可实现场景下 ERM 可学习性。最后,我们基于与 DS 维数相关的组合维数建立了一个可学习性的必要条件,并推测它在这种情况下也可能是充分的。此外,在在线学习的背景下,我们提供了一个维数,该维数刻画了极小极大实例最优累计损失到一个常数因子,并设计了一个针对可实现回归的最优在线学习器,从而解决了 Daskalakis 和 Golowich 在 STOC '22 中提出的一个开放问题。
信息检索(IR)性能的基准测试通常是在固定文档集(静态语料库)上进行的。然而,在现实场景中,这种情况很少发生,待检索的文档会不断更新和添加。本文重点研究生成式检索(GR),它将自回归语言模型应用于 IR 问题,并探索其在动态场景下的适应性和鲁棒性。我们还对计算和内存效率进行了广泛的评估,这是现实世界中部署处理大量不断变化的文档集合的 IR 系统的关键因素。我们在 StreamingQA 基准上的结果表明,与检索系统中常用的双编码器(DE)相比,GR 对不断变化的知识更具适应性(4% - 11%),在学习具有时间信息的知识方面更具鲁棒性,并且在推理 FLOPs(x 2)、索引时间(x 6)和存储空间(x 4)方面更高效。我们的论文强调了 GR 在未来用于动态环境中实际 IR 系统的潜力。
本文研究了基于一般模型函数逼近的平均场控制 (MFC) 和平均场博弈 (MFG) 中强化学习的基本统计效率。我们引入了一个名为平均场模型基于回避维数 (MF-MBED) 的新概念,它刻画了平均场模型类的内在复杂性。我们证明了丰富的平均场 RL 问题表现出低 MF-MBED。此外,我们提出了基于最大似然估计的算法,该算法可以为 MFC 返回一个 $\epsilon$-最优策略或为 MFG 返回一个 $\epsilon$-纳什均衡策略。总的样本复杂度仅与 MF-MBED 多项式相关,这可能远低于状态-动作空间的大小。与之前的工作相比,我们的结果仅需要最小的假设,包括可实现性和 Lipschitz 连续性。