参数高效微调(PEFT)和检索增强生成(RAG)已成为在最小化计算需求的同时调整大型语言模型的流行方法。本文将 PEFT 方法(P-tuning、适配器和 LoRA)应用于修改后的检索增强Transformer(RETRO)和基线 GPT 模型,这些模型的大小从 8.23 亿个参数到 480 亿个参数不等。我们发现,由于其独特的预训练过程,RETRO 模型在零样本设置中优于 GPT 模型,但 GPT 模型在使用 PEFT 时具有更高的性能潜力。此外,我们的研究表明,80 亿参数模型在成本和性能之间取得了最佳平衡,而 P-tuning 落后于其他 PEFT 技术。我们还对将 PEFT 应用于指令微调的 RETRO 模型和基础 RETRO 模型进行了比较分析。这项工作首次全面比较了集成到 RAG 中的各种 PEFT 方法,这些方法应用于 GPT 和 RETRO 模型,突出了它们的相对性能。
视频包含丰富的时空信息。传统的动作提取方法,例如用于动作识别的任务,通常依赖于视觉内容而不是精确的动作特征。这种现象被称为“盲动提取”行为,由于缺乏运动引导线索,在捕捉感兴趣的运动方面效率低下。最近,注意力机制通过有效地突出显着视觉区域,增强了许多计算机视觉任务。受此启发,我们提出了一种带有可学习斜率和偏移参数的改进Sigmoid函数,作为一种注意力机制来调节来自帧差分图的运动信号。这种方法生成一系列注意力图,增强了与运动相关的视频内容的处理。为了确保注意力图的时间连续性和平滑性,我们应用成对的时间注意力变化正则化来去除不需要的运动(例如噪声),同时保留重要的运动。然后,我们在每一对注意力图和原始视频帧之间执行哈达玛积,以突出显示随着时间的推移而演变的感兴趣的运动。这些突出显示的运动,称为视频运动提示,随后被用作模型的输入,而不是原始视频帧。我们将此过程形式化为运动提示层,并将正则化项并入损失函数以学习更好的运动提示。该层充当模型和视频数据之间的适配器,弥合了传统“盲动提取”与提取相关感兴趣运动之间的差距。我们表明,我们的轻量级、即插即用运动提示层可以无缝集成到 SlowFast、X3D 和 TimeSformer 等模型中,从而提高 FineGym 和 MPII Cooking 2 等基准的性能。
大型语言模型(LLMs)似乎在其调查答案中偏向某些价值观。然而,一些人认为LLMs 缺乏一致性,无法模拟特定的价值观。事实究竟如何?为了回答这个问题,我们首先将价值观一致性定义为答案在以下方面的相似性:(1)同一个问题的不同表达方式,(2)同一个主题下的相关问题,(3)同一个问题的多项选择和开放式应用场景,以及(4)同一个问题的英语、中文、德语和日语多语言翻译。我们使用涵盖 300 多个主题的 8,000 个问题,将这些指标应用于包括 llama-3 在内的小型和大型开放式 LLMs,以及 gpt-4o。与之前的工作不同,我们发现模型在不同的表达方式、应用场景、翻译以及同一个主题内都相对一致。尽管如此,仍然存在一些不一致。模型在非争议性主题(例如,在美国的“感恩节”)上比在争议性主题(“安乐死”)上更一致。基础模型在一致性方面比微调模型更强,并且在不同主题之间的一致性方面保持一致,而微调模型在某些主题(“安乐死”)上比其他主题(“妇女权利”)更不一致,这与我们的受试者(n=165)类似。
持续学习 (CL) 因其能够适应随着时间推移而出现的新的任务而备受关注。灾难性遗忘 (对旧任务的遗忘) 被认为是 CL 中的一个主要问题,因为模型会适应新的任务。混合专家 (MoE) 模型最近被证明能够有效地缓解 CL 中的灾难性遗忘,方法是使用门控网络稀疏化和分配多个专家之间的不同任务。然而,缺乏对 MoE 及其对 CL 学习性能影响的理论分析。本文首次通过超参数化线性回归任务的视角,提供了关于 MoE 在 CL 中的影响的理论结果。我们通过证明 MoE 模型可以使它的专家多元化以专门处理不同的任务,而它的路由器学习为每个任务选择合适的专家并平衡所有专家的负载,从而确定了 MoE 比单个专家的优势。我们的研究进一步表明了一个有趣的事实,即 CL 中的 MoE 需要在足够多的训练轮次后终止门控网络的更新才能实现系统收敛,这在现有的不考虑持续任务到达的 MoE 研究中是不需要的。此外,我们提供了预期遗忘和总体泛化误差的明确表达式,以描述 MoE 在 CL 学习性能中的优势。有趣的是,添加更多专家需要额外的轮次才能收敛,这可能不会提高学习性能。最后,我们在合成数据集和真实数据集上进行了实验,将这些线性模型的见解扩展到深度神经网络 (DNN),这也阐明了 MoE 在 CL 中的实际算法设计。
对话建设性评估的研究集中在 (i) 分析影响个人采取特定行动、赢得辩论、改变观点或拓宽开放性的对话因素,以及 (ii) 预测对话后针对此类用例的建设性结果。这些目标可以通过训练可解释的基于特征的模型(通常涉及昂贵的人工标注)或神经模型(例如预训练语言模型,它们在经验上显示出更高的任务准确性,但缺乏可解释性)来实现。在本文中,我们提出了一种基于 LLM 特征的对话建设性评估框架,它结合了基于特征和神经方法的优势,同时减轻了它们的缺点。该框架首先定义了一组与数据集无关且可解释的语言特征,这些特征可以通过提示 LLM 和简单的启发式方法来提取。然后使用这些特征来训练基于 LLM 特征的模型。我们将此框架应用于三个对话建设性数据集,发现我们基于 LLM 特征的模型优于或至少与标准基于特征的模型和神经模型一样好。我们还发现,基于 LLM 特征的模型学习到更稳健的预测规则,而不是依赖于表面上的捷径,而表面上的捷径往往困扰着神经模型。
以往研究表明,AI 代理可以作为伴侣,为人类提供持续的情感支持。本文强调了个人 AI 陪伴中自主适应的必要性,这是一个尚未充分探索但极具潜力的方向。这种适应性至关重要,因为它可以促进与用户的更量身定制的互动,并允许代理根据用户的不断变化的需求而发展。然而,赋予代理自主适应能力带来了独特的挑战,包括识别满足用户期望的最佳适应,以及确保在适应过程中平稳过渡。为了解决这些问题,我们设计了一个分层框架 AutoPal,它可以根据用户互动对代理的角色进行可控且真实的调整。构建了一个角色匹配数据集,以促进学习最佳角色适应。大量实验表明 AutoPal 的有效性,并突出了自主适应在 AI 陪伴中的重要性。
大型语言模型 (LLM) 的发展增强了语言代理在各种现实场景中的规划能力。尽管取得了这些进展,但 LLM 驱动的代理在理解用户指令的模糊性以进行推理和决策方面的潜力仍在探索中。在本工作中,我们介绍一项新的任务,即主动代理规划,该任务要求语言代理根据用户-代理对话和代理-环境交互预测澄清需求,调用外部工具收集有效信息,并生成计划来满足用户的需求。为了研究这一实际问题,我们建立了一个新的基准数据集 Ask-before-Plan。为了解决 LLM 在主动规划中的缺陷,我们提出了一种新颖的多代理框架,即澄清-执行-规划 (\texttt{CEP}),它由三个专门负责澄清、执行和规划的代理组成。我们引入了澄清代理和静态执行代理的轨迹调整方案,以及动态执行代理的记忆回忆机制。在 Ask-before-Plan 数据集上进行的广泛评估和综合分析验证了我们提出的框架的有效性。
条件视觉生成在扩散模型(DMs)的出现下取得了显著进展,特别是在控制到图像生成等任务中。然而,昂贵的计算成本、高推理延迟以及与大型语言模型(LLMs)集成方面的困难,迫使人们探索 DMs 的替代方案。本文介绍了 ControlVAR,一个新颖的框架,探索了视觉自回归(VAR)建模中的像素级控制,以实现灵活高效的条件生成。与学习条件分布的传统条件模型不同,ControlVAR 在训练期间联合建模图像和像素级条件的分布,并在测试期间施加条件控制。为了增强联合建模,我们采用了下一尺度 AR 预测范式,并将控制和图像表示统一起来。提出了一种教师强制指导策略,以进一步促进联合建模的可控生成。大量实验表明,与流行的条件 DMs(例如 ControlNet 和 T2I-Adaptor)相比,ControlVAR 在各种条件生成任务中具有优越的效力和灵活性。代码:\url{https://github.com/lxa9867/ControlVAR}。
基础模型在我们的日常生活中越来越普遍,被用于日常任务,例如文本图像搜索、与聊天机器人的互动以及内容生成。随着使用量的增加,人们越来越担心这些模型在世界不同地区不同人群的性能和公平性方面的差异。为了评估这些不断增长的地区差异,我们推出了“世界各地美食”数据集,这是一个混合文本和图像数据集,包含 765 道菜,菜名以 131 种本地语言收集。 “世界各地美食”数据集完全通过人类贡献和去中心化方式收集,通过创建一个广泛分布在社交网络上的网站。利用该数据集,我们展示了一种将能力和表征偏差操作化的新方法,例如语言模型和文本到图像生成模型。我们通过一项试点社区评估丰富了这些研究,以从第一人称的角度了解这些模型如何为五个非洲国家和美国的人们生成图像。
我们发现,这些模型通常不会生成特定于不同地区的菜肴的优质文本和图像输出。即使对于美国来说也是如此,美国通常被认为在训练数据方面资源更丰富——尽管美国菜肴的生成确实优于调查的非洲国家。这些模型表现出产生不准确以及文化上失真、扁平化和不敏感的输出的倾向。这些能力和表征偏差方面的失败有可能进一步强化刻板印象,并基于地区不成比例地导致抹杀。该数据集和代码可在 https://github.com/oxai/world-wide-dishes/ 获取。
在文本到图像生成模型领域,训练数据集固有的偏差往往会传播到生成的內容,在社会敏感的语境中构成重大的伦理挑战。我们引入了 FairCoT,一个新颖的框架,通过多模态生成式大型语言模型 (LLM) 中的思维链 (CoT) 推理来增强扩散模型的公平性。FairCoT 采用迭代式 CoT 细化和服装属性预测来系统地减轻偏差,确保生成图像的多样性和公平性。通过整合迭代式推理流程,FairCoT 克服了零样本 CoT 在敏感场景中的局限性,在创造力和伦理责任之间取得平衡。跨多个模型(包括 DALL-E 和各种 Stable Diffusion 变体)的实验评估表明,FairCoT 显着提高了公平性和多样性指标,而不会影响图像质量或相关性。我们的方法推动了生成式建模中的伦理人工智能实践,促进了社会责任感的內容生成,并为人工智能生成图像的公平性树立了新标准。