现有的传统联邦学习 (FL) 激励机制侧重于对单个全局目标的个人贡献,而忽略了具有多个集群级模型的集群个性化的细微差别以及客户的非货币激励,例如个性化模型吸引力。在本文中,我们首先提出将激励机制和个性化作为相互关联的挑战,并通过一种促进个性化学习的激励机制来解决它们。此外,现有方法依赖于聚合器进行客户聚类,由于隐私限制,聚合器无法访问客户的机密信息,导致聚类不准确。为了克服这个问题,我们建议直接让客户参与进来,允许客户根据数据分布和激励驱动的反馈来表明其集群成员偏好。我们的方法增强了具有高质量数据的自我意识客户的个性化模型吸引力,从而使其积极且持续地参与。我们的评估表明,与现有的 FL 模型(包括解决数据异构性和个性化的模型)相比,测试准确率(8-45%)、个性化模型吸引力(3-38%)和参与率(31-100%)都有显著提高。
多任务强化学习(MTRL)旨在同时学习多个任务,以实现比单独学习更高的样本效率。传统方法通过在任务之间共享参数或重新标记数据来实现这一点。在这项工作中,我们提出了一种新的框架,用于在任务之间共享行为策略,该框架可以与现有的 MTRL 方法一起使用。关键思想是通过使用其他任务策略的行为来改进每个任务的离策略数据收集。选择性地共享在一个任务中获得的有用行为以收集另一个任务的训练数据可以产生更高质量的轨迹,从而导致更样本高效的 MTRL。因此,我们引入了一个简单且有原则的框架,称为 Q-switch 策略混合 (QMP),该框架通过使用任务的 Q 函数评估和选择有用的可共享行为,从而在不同的任务策略之间选择性地共享行为。我们从理论上分析了 QMP 如何提高底层 RL 算法的样本效率。我们的实验表明,QMP 的行为策略共享在许多流行的 MTRL 算法之上提供了补充收益,并且在各种操作、运动和导航环境中优于共享行为的替代方法。视频可在 https://qmp-mtrl.github.io 获取。
自然语言处理 (NLP) 技术的快速发展导致了 ChatGPT 和 Claude 等文本生成工具的广泛可用性和有效性。虽然这些技术非常有用,但如果它们被用于改写剽窃(科学文献和一般文本媒体中最微妙的滥用内容形式之一),它们也会对各种媒体形式的可信度构成重大风险。尽管已经开发出用于识别改写的自动化方法,但由于用于训练这些方法的数据集的不一致性,检测这种类型的剽窃仍然具有挑战性。在本文中,我们考察了识别改写的传统和当代方法,研究了流行数据集(包括用于训练大型语言模型 (LLMs) 的数据集)中某些改写类型代表性不足如何影响检测剽窃的能力。我们介绍并验证了一种新的改写类型学(ReParaphrased,REfined PARAPHRASE 类型学定义),以更好地理解改写类型表示中的差异。最后,我们提出了未来研究和数据集开发的新方向,以增强基于人工智能的改写检测。
本文提出了一种名为 UTTS 的全新无监督文本到语音声学模型训练方案,该方案不需要文本-音频对。UTTS 是一种支持零样本语音克隆的多说话人语音合成器,它是在解耦语音表示学习的角度下开发的。该框架为 TTS 推理提供了灵活的选择,包括说话人的持续时间模型、音色特征(身份)和内容。我们利用最近在自监督语音表示学习和语音合成前端技术方面的进展来进行系统开发。具体来说,我们采用我们最近提出的条件解耦顺序变分自动编码器 (C-DSVAE) 作为 UTTS AM 的主干,该编码器在训练期间以无监督对齐 (UA) 作为条件,提供了结构良好的内容表示。对于 UTTS 推理,我们利用词典将输入文本映射到音素序列,该序列被扩展到帧级强制对齐 (FA),并使用说话人相关的持续时间模型。然后,我们开发了一个对齐映射模块,将 FA 转换为 UA。最后,作为自监督 TTS AM 的 C-DSVAE,采用预测的 UA 和目标说话人嵌入来生成梅尔频谱图,该频谱图最终通过神经声码器转换为波形。我们展示了我们的方法如何在 AM 开发阶段不使用配对 TTS 语料库的情况下实现语音合成。实验表明,UTTS 可以合成具有高自然度和清晰度的语音,这通过人工评估和客观评估得到证实。音频样本可在我们的演示页面 https://neurtts.github.io/utts_demo/ 上获得。
大型语言模型(LLMs)在解决物理世界中的复杂任务方面展现出巨大潜力,对它们外部行为和内部机制的研究也取得了进展。研究表明,像 GPT-4 这样的强大 LLM 正在开始展现出类似人类的认知能力,包括计划、推理和反思。本文提出了一条名为“LLM 心理学”的研究路线和方法,利用人类心理学实验来研究 LLM 的认知行为和机制。我们将心理学中的“字母错位现象”迁移到 LLM 研究中,以探索 LLM 的“思维”。与依靠上下文和词语模式理解乱序文本的人类大脑不同,LLMs 采用不同的编码和解码过程。通过在字符、词语和句子级别进行字母错位实验,我们观察到:
(I) LLM 在宏观层面上表现出类似人类的行为,例如任务准确率降低,标记/时间消耗增加;
(II) LLM 对乱序输入表现出不同的鲁棒性,使得字母错位成为模型评估的基准,无需新的数据集;
(III) 不同的任务类型具有不同的影响,复杂逻辑任务(例如数学)在乱序形式下更具挑战性;
(IV) 每个 LLM 在不同任务中都具有独特且一致的“认知模式”,揭示了其心理学过程中的通用机制。
我们对隐藏层进行了深入分析,以解释这些现象,为 LLM 心理学和更深层次的可解释性方面的未来研究铺平了道路。
基于大型语言模型 (LLM) 的 AI 代理越来越多地被用于代表用户行动,通过对话界面帮助他们完成各种任务。尽管它们有诸多优势,但人们也开始担心隐私泄露的风险,尤其是在涉及社交互动的场景中。虽然现有研究侧重于通过限制 AI 代理访问敏感用户信息来保护隐私,但许多社交场景需要公开私人信息才能实现预期结果,因此需要在隐私保护和信息披露之间取得平衡。为了解决这一挑战,我们进行了一项试点研究,调查用户在不同社交关系和任务场景中对 AI 代理的偏好,并在此基础上提出了一种新型的隐私感知自我披露 AI 代理系统。我们的用户研究表明,所提出的 AI 代理能够战略性地保护隐私,开创了其在多元化动态社交互动中的应用。
在大型语言模型预训练中,数据选择至关重要,因为大规模可用训练语料库中存在质量差异。为了实现这一点,研究人员目前正在探索使用数据影响力来衡量数据实例的重要性,即高影响力得分表明将该实例纳入训练集可能会提高模型性能。因此,他们会选择得分最高的 top-$k$ 个实例。然而,这种方法存在一些局限性。(1) 计算所有可用数据的影響力非常耗时。(2) 选择的数据实例不够多样化,这可能会阻碍预训练模型有效地泛化到各种下游任务。在本文中,我们介绍了 \texttt{Quad},一种通过利用数据影响力来实现最先进的预训练结果的数据选择方法,它同时考虑了质量和多样性。特别是,考虑到注意力层捕获了广泛的语义细节,我们已经调整了加速 $iHVP$ 计算方法以适应注意力层,增强了我们评估数据影响力(即其质量)的能力。为了实现多样性,\texttt{Quad} 将数据集聚集成每个聚类内相似的实例,以及不同聚类之间不同的实例。对于每个聚类,如果我们选择从中选择数据,我们会提取一些样本以评估影响,以避免处理所有实例。为了确定选择哪些聚类,我们利用经典的多臂老虎机方法,将每个聚类视为一个臂。这种方法有利于具有高影响力实例的聚类(确保高质量)或选择频率较低的聚类(确保多样性),从而很好地平衡了质量和多样性。
大型语言模型(LLM)如 GPT(生成式预训练Transformer)在增强人类创造力方面已证明卓有成效,能够提供众多新颖且多样化的创意,从而满足产品设计创新需求旺盛的构思阶段。尽管在创意数量方面取得了成功,但对这些创意的质量评估仍然具有挑战性,传统上依赖于专家的人工评估。这种方法存在着人为判断错误、偏见和疏忽等局限性。为了填补这一空白,我们的研究引入了一个全面的数学框架,用于自动分析,以客观地评估由 CAI 系统和/或人类生成的众多创意。该框架对于缺乏选择有前景创意经验的新手设计师来说尤其有利。通过将创意转换为高维向量,并使用 UMAP、DBSCAN 和 PCA 等工具定量测量它们之间的多样性,该方法提供了一种可靠且客观的方式来选择最有前景的创意,从而提高构思阶段的效率。
当前大型语言模型(LLM)的训练将数学推理作为一项核心能力。随着公开可用资源的完全利用,对多样化和具有挑战性的数学问题存在未满足的需求。仅仅依靠人类专家既耗时又昂贵,而LLM生成的题目往往缺乏必要的多样性和难度。我们提出了一种设计框架,将LLM的优势与人机协同方法相结合,以生成多种具有挑战性的数学问题。我们利用强大LLM的元认知技能[Didolkar等人,2024]从现有的数学数据集中提取核心“技能”。这些技能作为通过提示LLM使用随机的核心技能对来生成新颖且困难的问题的基础。在每个问题中使用两种不同的技能使得找到这些问题对于LLM和人类来说都是一项“超出分布”的任务。我们的流程利用LLM通过多轮提示迭代地生成和完善问题和解决方案。人类注释者随后验证并进一步完善问题,通过进一步的LLM交互提高其效率。将此流程应用于从MATH数据集[Hendrycks等人,2021]中提取的技能,生成了MATH$^2$——一个更高质量的数学问题数据集,这可以通过以下证据证明:(a) 所有模型在MATH$^2$上的表现均低于在MATH上的表现 (b) 当使用MATH$^2$问题作为上下文示例时,在MATH上的表现更高。尽管重点关注数学,但我们的方法似乎适用于其他需要结构化推理的领域,并且有可能作为可扩展监督的一个组成部分。同样令人感兴趣的是在模型在新的数据集上的表现之间观察到的显著关系:在MATH$^2$上的成功率是MATH上的平方,这表明成功解决MATH$^2$中的问题需要两种不同数学技能的非平凡组合。
我们引入了“奇妙团队”,一个多智能体视觉大型语言模型(VLLM)框架,旨在以零样本方式解决机器人问题。在我们的语境中,零样本意味着对于一个新的环境,我们向 VLLM 提供机器人周围环境的图像和任务描述,VLLM 则输出机器人完成任务所需的行动序列。与需要微调管道部分(例如,在特定于机器人的数据上调整 LLM 或训练单独的视觉编码器)的先前工作不同,我们的方法表明,通过仔细的工程设计,单个现成的 VLLM 可以自主处理机器人任务的所有方面,从高级规划到低级位置提取和行动执行。至关重要的是,与单独使用 GPT-4o 相比,“奇妙团队”具有自我纠正能力,能够迭代地修正自身错误,使其能够解决具有挑战性的长时程任务。我们通过广泛的实验验证了我们的框架,包括在使用 VIMABench 的模拟环境中以及在现实世界环境中。我们的系统展示了处理各种任务的能力,例如操作、目标到达和视觉推理——所有这些都以零样本方式完成。这些结果强调了一个关键点:视觉语言模型在过去一年中取得了快速进展,应该被认真考虑作为未来许多机器人问题的基础。