arXiv:2410.19982v3 宣告类型: replace-cross
摘要: 预训练基础模型已经展示了令人惊叹的上下文内学习性能,使其能够在预训练过程中未遇到的新任务上实现零样本泛化。在强化学习(RL)的情况下,通过自回归监督的方式在决策问题上预训练FMs时,上下文内RL(ICRL)便会浮现。然而,当前最先进的ICRL算法,如算法蒸馏、决策预训练.transformer和决策重要性transformer,在预训练数据集方面对于源策略、上下文信息和行动标签提出了严格的要求。值得注意的是,这些算法要么需要最优策略,要么需要在所有预训练环境中使用不同程度的良好训练的行为策略。这严重阻碍了ICRL在实际场景中的应用,因为在实际场景中获得大量真实环境训练的良好训练策略可能是不可行的。为了克服这一挑战,我们引入了一种名为状态-行动蒸馏(SAD)的新方法,它允许根据随机策略生成有效的预训练数据集。特别是在信任期限内使用随机策略从整个状态空间和行动空间中提取出类拔萃的状态-行动对,从而选择查询状态及其相应的行动标签,然后在预训练过程中继承传统的自回归监督机制。据我们所知,这是第一项能够在随机策略和随机上下文中实现有效ICRL的工作。我们还对SAD的信任度以及性能保证进行了定量分析。此外,我们在多个流行的ICRL基准环境中进行的实证研究表明,在离线评估中,SAD平均比最佳基线高出236.3%,在在线评估中高出135.2%。
arXiv:2410.17262v2 视频类型: replace-cross
摘要:音频驱动的头部再现是一项关键而有用的技术,适用于虚拟人类互动和电影制作。虽然近期进展主要集中在提高图像保真度和唇部同步上,但生成准确的情感表达仍然研究不足。在本文中,我们介绍了EmoGene,这是一个用于合成高保真、音频驱动的视频肖像,并包含准确情感表达的新型框架。我们的方法采用基于变分自编码器(VAE)的音频到运动模块生成面部特征点,将其与情感嵌入连接后,在运动到情感模块中产生情感特征点。这些特征点驱动基于神经辐射场(NeRF)的情感到视频模块来生成逼真的情感说话头视频。此外,我们提出了一种姿态采样方法,用于生成自然的无声状态(非说话)视频,作为无声音频输入。广泛的实验表明,EmoGene 在生成高保真情感说话头视频方面优于先前方法。
arXiv:2410.11502v3 宣告类型: replace-cross
摘要: 非在线模型导向优化(MBO)旨在使用一组固定且预先收集的设计及其相应的评分来识别最大化黑盒函数的设计。在非在线MBO中,一种常见方法是通过最小化均方误差(MSE)训练基于回归的代理模型,然后使用不同的优化器(例如梯度上升)在代理模型中找到最佳设计。然而,一个关键挑战是分布外错误的风险,即代理模型可能会过度估计评分,并误导优化器进入次优区域。先前的研究以各种方式尝试解决这一问题,例如使用正则化技术和集成学习来增强模型的鲁棒性,但这一问题仍未完全解决。在这篇论文中,我们提出,利用MSE训练的回归模型并不完全符合非在线MBO的主要目标,即选择有前途的设计而不是精确预测其评分。值得注意的是,如果代理模型能够根据候选设计的相对评分关系保持其顺序,它可以在没有精确预测的情况下生成最佳设计。为了验证这一点,我们进行了实验,比较了最终设计质量与MSE之间的关系,发现它们之间的相关性非常弱。相反,衡量保持顺序质量的度量与之显示出更强的相关性。基于这一观察,我们提出了一种排名模型的学习方法,利用排序学习技术根据相对评分优先选择有前途的设计。我们展示了排名损失上的泛化误差可以很好地被限制。跨不同任务的实证结果表明,我们提出的排名模型在性能上明显优于现有的20种方法。
arXiv:2410.08067v5 宣告类型: replace-cross
摘要: 在大规模语言模型(LLMs)中引入偏好对齐显著提高了它们遵循人类指令和意图的能力。然而,现有的直接对齐算法主要关注相对偏好,往往忽视了响应的定性方面,尽管这些算法在人工智能反馈期间可以访问包含评委模型奖励得分的偏好数据。为了最大化所选响应和略微低劣的被拒响应之间的隐含奖励差距,可能会导致过拟合并不必要的忽视高质量的被拒响应。忽视奖励得分也会促使LLM不分青红皂白地偏好低质量的所选响应,并且无法泛化到数据稀少的理想响应。为克服这些缺点,我们的研究引入了基于奖励的LLM策略,能够辨识并从数据集中响应质量的整个谱系中学习,帮助推广到更理想的区域。我们提出了一种有效且简单的数据重新标签方法,基于质量得分条件化偏好对,构建奖励增强数据集。在各种基准和不同模型的实验中表明,我们的方法在显著提升DPO方面表现出色。通过全面的消融研究,我们证明我们的方法不仅最大化了偏好数据的效用,还缓解了忽视的问题,展示了其广泛的有效性,远不止简单的数据扩展。我们的代码可在 https://github.com/shenao-zhang/reward-augmented-preference 获取。
arXiv:2409.04744v2 公告类型: 替换交叉
摘要:强化学习(RL)中环境过渡模型的固有不确定性要求在探索与利用之间保持微妙的平衡。这种平衡对于优化计算资源以准确估计代理的预期奖励至关重要。在稀疏奖励的场景中,如机器人控制系统,实现这一平衡尤其具有挑战性。然而,考虑到许多环境已经具备了大量的先验知识,在这样的背景下从头学习可能是冗余的。为了解决这一问题,我们提出了一种新颖的样本高效框架,即语言模型引导的奖励调优(LMGT)。LMGT 利用了大型语言模型(LLMs)中嵌入的全面先验知识及其处理非标准数据形式(如维基教程)的能力。通过利用 LLM 引导的奖励调整,LMGT 精确地在探索与利用之间找到了平衡,从而指导代理的探索行为并提高样本效率。我们已经对该框架在各种 RL 任务上进行了严格的评估,并在实体机器人环境 Housekeep 中进行了评估。我们的结果显示,LMGT 在各种基线方法中表现始终更为出色。此外,研究结果表明,我们的框架在 RL 训练阶段可以显著减少所需的计算资源。
arXiv:2408.11433v2 Announce Type: replace-cross
摘要:现代隐私法规推动了机器抹除技术的发展,这是一种能够在不从头重新训练的情况下从已经训练好的ML模型中删除数据的技术。之前的抹除方法倾向于使模型在删除数据上的分类准确性最低。然而,机器抹除的真实目标是使未学习的模型与黄金模型对齐,即获得与黄金模型相同的分类准确性。为此,我们提出了一种双模型抹除(Twin Machine Unlearning,TMU)方法,其中定义了一个与原始抹除问题对应的双模型抹除问题。因此,可以在双模型抹除问题上训练的泛化标签预测器可以转移到原始问题上,促进对齐的数据删除。全面的实证实验表明,我们的方法显著增强了未学习模型与黄金模型之间的对齐。同时,我们的方法允许在不牺牲模型准确性的前提下进行数据删除。
arXiv:2406.13725v2 宣告类型: 替换-交叉
摘要:为了应对最优传输(OT)的计算负担,已经开发了多种OT变体。其中,特别是在应用领域广泛使用的切片Wasserstein(SW)方法,通过将OT问题投影到一维线上来降低计算负担,并利用一维OT的闭式表达式来减少计算负担。然而,将测度投影到低维空间会导致拓扑信息的丢失。为缓解这一问题,本文提出用一种更为复杂的结构——树系统来代替一维线。这种结构可以采用树度量进行度量,从而为树系统上的OT问题提供了闭式表达式。我们进行了详尽的理论分析,以正式定义树系统及其拓扑性质,并引入了拆分映射的概念,作为这些结构上的投影机制,然后提出了树系统的新颖Radon变换,并验证了其单射性。该框架导致了一种衡量测度之间距离的有效度量,称为树切片Wasserstein距离(TSW-SL)系统。通过对梯度流、图像风格转移和生成模型进行各种实验,我们表明,我们提出的方法与SW及其变体相比具有优势。
arXiv:2405.17412v4 Announce Type: replace-cross
摘要:本文表明,如UMAP和t-SNE这样的降维方法可以近似重述为Ravuri等人(2023)介绍的模型中的MAP推断方法,该模型使用威尔肖特分布来描述图拉普拉斯算子(数据精度矩阵的估计值),其均值由非线性协方差函数在隐变量上评估得到。这种解释为这些算法提供了更深层次的理论和语义洞察,并通过展示可以使用众所周知的核函数来描述由图拉普拉斯算子暗示的协方差,将这些方法与高斯过程潜变量模型联系起来。我们还引入了研究类似降维方法的工具。
arXiv:2405.14606v4 宣告类型: replace-cross
摘要: 在2019年的开创性工作中,Barceló及其合作者确定了与一阶逻辑可定义的性质相比,精确匹配常数迭代深度图神经网络(GNNs)表达能力的形式化逻辑。在这篇文章中,我们给出了两种情况下递归图神经网络的精确逻辑特征刻画:(1)在带有浮点数的设定中,(2)在带有实数的设定中。对于浮点数,匹配递归GNN的形式化逻辑是一种带计数的规则基模态逻辑,而对于实数,我们使用一种合适的无穷模态逻辑,同样带计数。这些结果显示,在不涉及背景逻辑的前提下,递归GNN在浮点数和实数两种情况下均与逻辑具有精确匹配的关系,但利用一些自然的浮点算术假设。应用我们的特征刻画,我们还证明了,相对于由单调第二阶逻辑(MSO)可定义的图性质,我们的无穷模态逻辑和规则基模态逻辑具有相同的表达能力。这意味着带有实数和浮点数的递归GNN在MSO可定义的性质上具有相同的表达能力,并且还表明,对于此类性质,也存在一种(有限的)规则基模态逻辑来刻画递归GNN,而不像一般情况,这两种数值下递归GNN的表达能力不同。除了逻辑导向的结果外,我们还通过分布式自动机来特征刻画了具有浮点数和实数的递归GNN,这与分布式计算模型建立了联系。
arXiv:2404.18624v4 宣告类型: 更新交叉引用
摘要:视觉和语言模型(VLM)解码器目前在多模态任务中表现最佳。除了答案之外,它们还能在事后解释或基于推理的解释(CoT)设置中生成自然语言解释。然而,在生成答案或解释时,它们是否充分利用了输入的视觉和文本模态尚不清楚。本文我们研究了当VLM在生成解释而非答案时,是否依赖其输入模态的方式有所不同。我们还通过将现有的单模态测试和度量扩展到VLM解码器,评估了VLM解码器在事后解释和基于推理的解释设置中的自我一致性。我们发现,所测试的大多数VLM比大型语言模型(LLMs)更不具有自我一致性。所有测试的VLM解码器中的文本贡献在所有检查的任务中都比图像贡献更重要。然而,当我们比较生成解释与生成答案时,生成解释所需要的图像贡献明显比生成答案更强。这一差异在基于推理的解释(CoT)中比事后解释更显著。最后,我们提供了当前最先进的VLM解码器在VALE Benchmark上的基准测试,此前该基准测试仅限于VLM编码器。我们发现,所测试的VLM解码器在VALE基准测试中仍然在大多数测试现象上存在困难。