基础模型已成为时间序列预测(TSF)的一种很有前景的方法。现有的方法要么重新利用大型语言模型(LLM),要么构建大规模时间序列数据集来开发用于通用预测的TSF基础模型。然而,这些方法面临着跨域差距严重或域内异质性带来的挑战。本文探索了一条从丰富、高质量的自然图像中构建TSF基础模型的新途径。我们的关键见解是,在ImageNet数据集上预训练的视觉掩码自动编码器可以自然地成为一个数值序列预测器。通过将TSF重新表述为图像重建任务,我们弥合了图像预训练和TSF下游任务之间的差距。令人惊讶的是,在没有对时间序列域进行进一步适应的情况下,所提出的VisionTS与现有的TSF基础模型相比,可以实现优异的零样本预测性能。通过对一个epoch进行微调,VisionTS可以进一步提高预测性能,并在大多数情况下实现最先进的性能。大量的实验揭示了图像和现实世界时间序列之间的内在相似性,表明视觉模型可能为TSF提供“免费午餐”,并突出了未来跨模态研究的潜力。我们的代码在https://github.com/Keytoyze/VisionTS上公开提供。
大型语言模型(LLM)已在众多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法...
识别和解耦物体中的视觉属性是许多计算机视觉应用的基础。虽然像 CLIP 这样的大型视觉语言表示在很大程度上解决了零样本物体识别的任务,但零样本视觉属性识别仍然是一个挑战,因为 CLIP 的对比学习的视觉语言表示不能有效地捕捉物体-属性依赖关系。在本文中,我们针对这一弱点,提出了一种基于句子生成的检索公式来进行属性识别,该公式在以下方面是新颖的:1)显式地将待测量和检索的物体-属性关系建模为一个条件概率图,将识别问题转化为依赖敏感的语言建模问题;2)将大型预训练的视觉-语言模型 (VLM) 应用于这种重新表述,并自然地提取其对图像-物体-属性关系的知识,用于属性识别。具体来说,对于要识别图像上的每个属性,我们测量了生成一个短句的视觉条件概率,该短句编码了属性与图像上物体的关系。与对比检索不同的是,对比检索通过全局对齐句子元素与图像来衡量可能性,生成检索对句子中物体和属性的顺序和依赖关系敏感。我们通过实验表明,生成检索在两个视觉推理数据集 Visual Attribute in the Wild (VAW) 和我们新提出的 Visual Genome Attribute Ranking (VGARank) 上始终优于对比检索。
传统的不确定性感知时序差分 (TD) 学习方法通常依赖于简单的假设,通常包括 TD 错误的零均值高斯分布。这种过度简化会导致错误表示不准确,并损害不确定性估计。在本文中,我们介绍了一种用于深度强化学习中广义高斯误差建模的新框架,适用于离散和连续控制设置。我们的框架通过合并额外的更高阶矩(特别是峰度)来增强误差分布建模的灵活性,从而提高数据相关噪声(即偶然不确定性)的估计和缓解。我们研究了广义高斯分布 (GGD) 形状参数对偶然不确定性的影响,并提供了一个闭式表达式,该表达式表明不确定性和形状参数之间存在反比关系。此外,我们提出了一种理论上合理的加权方案,以充分利用 GGD。为了解决认知不确定性,我们通过合并偏差降低和峰度考虑来增强批次逆方差加权,从而提高鲁棒性。使用策略梯度算法进行的大量实验评估证明了我们方法的一致有效性,展示了显著的性能改进。
在部署模型的生命周期中,训练数据和测试数据之间的分布偏移是不可避免的,导致性能下降。在测试样本上调整模型可以帮助减轻这种性能下降。然而,大多数测试时适应方法都集中在合成腐蚀偏移上,而对各种分布偏移的探索不足。本文重点研究随着时间推移而逐渐演变的分布偏移,这种偏移在现实世界中很常见,但正如我们所展示的那样,对于现有的方法来说具有挑战性。为了解决这个问题,我们提出了 STAD,这是一个概率状态空间模型,通过学习最后一组隐藏特征中的时变动态,将部署模型适应时间分布偏移。无需标签,我们的模型推断出随时间演变的类原型,这些原型充当动态分类头。通过对真实世界时间分布偏移的实验,我们表明我们的方法在处理小批量大小和标签偏移方面表现出色。
分数蒸馏采样 (SDS) 已成为文本驱动 3D 编辑任务中一种有效的框架,利用扩散模型进行 3D 一致性编辑。然而,现有的基于 SDS 的 3D 编辑方法存在训练时间长、结果质量低的问题。我们发现这种性能下降的根本原因是它们与扩散模型的采样动力学相冲突。解决这种冲突使我们能够将 SDS 视为通过从数据空间采样进行 3D 编辑的扩散逆过程。相比之下,现有方法简单地使用扩散模型来蒸馏评分函数。基于这些见解,我们提出了 DreamCatalyst,一个在 SDS 框架中考虑这些采样动力学的新框架。具体来说,我们设计了 DreamCatalyst 的优化过程来近似编辑任务中的扩散逆过程,从而与扩散采样动力学保持一致。因此,DreamCatalyst 成功地减少了训练时间并提高了编辑质量。我们的方法提供两种模式:(1) 快速模式,它编辑神经辐射场 (NeRF) 场景的速度比当前最先进的 NeRF 编辑方法快约 23 倍;(2) 高质量模式,它产生的结果比这些方法快约 8 倍。值得注意的是,我们的高质量模式在速度和质量方面都优于当前最先进的 NeRF 编辑方法。DreamCatalyst 还超越了最先进的 3D 高斯 splatting (3DGS) 编辑方法,成为一种有效且与模型无关的 3D 编辑解决方案。有关更多扩展结果,请访问我们的项目页面:https://dream-catalyst.github.io。
大型语言模型 (LLMs) 在现代自然语言处理和人工智能领域至关重要。然而,它们在管理庞大的内存需求方面面临挑战。尽管量化感知训练 (QAT) 通过低比特表示来减少内存消耗,同时最大程度地减少精度损失,从而提供了一种解决方案,但由于其大量的训练资源,它在实际应用中不可行。为了解决这个问题,我们提出了高效量化感知训练 (EfficientQAT),这是一种更可行的 QAT 算法。EfficientQAT 包含两个连续的阶段:所有参数的块级训练 (Block-AP) 和量化参数的端到端训练 (E2E-QP)。据我们所知,Block-AP 是第一个能够以块级方式直接训练所有参数的方法,通过在优化过程中增强解空间,从而减少了低比特场景下的精度损失。然后,E2E-QP 只对量化参数(步长)进行端到端训练,通过考虑所有子模块之间的相互作用,进一步提高了量化模型的性能。大量的实验表明,EfficientQAT 在各种模型(包括基础 LLMs、指令微调 LLMs 和多模态 LLMs)中,在 7B 到 70B 参数的范围内,以不同的量化比特数,优于之前的量化方法。例如,EfficientQAT 在单个 A100-80GB GPU 上训练一个 2 比特的 Llama-2-70B 模型,仅需 41 个小时,与全精度模型相比,精度下降不到 3 个点(69.48 对 72.41)。代码可在 https://github.com/OpenGVLab/EfficientQAT 获取。
学习动力学,描述特定训练样本的学习如何影响模型对其他样本的预测,为我们提供了一个强大的工具来理解深度学习系统的行为。我们通过分析不同潜在响应之间影响累积的逐步分解,研究了大型语言模型在不同类型的微调过程中的学习动力学。我们的框架允许对许多关于指令微调和偏好微调的流行算法训练的有趣观察进行统一的解释。特别是,我们提出了一个关于为什么特定类型的幻觉在微调后会被加强的假设解释,例如,模型可能会使用响应问题 B 中的短语或事实来回答问题 A,或者模型可能会在生成响应时不断重复类似的简单短语。我们还扩展了我们的框架并强调了一种独特的“挤压效应”来解释之前在离策略直接偏好优化 (DPO) 中观察到的现象,即 DPO 运行时间过长会导致即使是期望的输出也变得不太可能。该框架还提供了对策略内 DPO 和其他变体的优势来源的见解。该分析不仅为理解 LLM 的微调提供了新的视角,而且还激发了一种简单有效的提高对齐性能的方法。
配备强化学习 (RL) 的机器人有潜力仅从奖励信号中学习各种技能。然而,为一般操作任务获得稳健且密集的奖励信号仍然是一个挑战。现有的基于学习的方法需要大量数据,例如人类成功和失败的演示,来学习特定于任务的奖励函数。近年来,大型多模态基础模型在机器人领域的应用也日益增多,这些模型能够在物理环境中进行视觉推理,并为操作任务生成粗略的机器人运动。受这种能力范围的启发,在这项工作中,我们提出了基于关键点的可供性引导改进 (KAGI) 方法,该方法利用视觉语言模型 (VLM) 形状的奖励进行自主 RL。最先进的 VLM 已在零样本中通过关键点展示了关于可供性的令人印象深刻的推理,我们使用这些关键点来定义密集奖励,以引导自主机器人学习。在由自然语言描述指定的现实世界操作任务中,KAGI 提高了自主 RL 的样本效率,并在 20K 在线微调步骤中成功完成任务。此外,我们证明了 KAGI 对用于预训练的域内演示数量减少的鲁棒性,在 35K 在线微调步骤中达到了类似的性能。项目网站:https://sites.google.com/view/affordance-guided-rl
时序动作定位(TAL)中的词汇量受限于大规模标注数据集的稀缺性。为了克服这一问题,最近的研究将视觉语言模型(VLM),例如 CLIP,集成到开放词汇 TAL(OV-TAL)中。然而,尽管在大型数据集上训练的 VLM 取得了成功,但现有的 OV-TAL 方法仍然依赖于有限规模的人工标注 TAL 数据集来训练动作定位器,这限制了它们的泛化能力。本文探讨了使用未标注的 YouTube 视频进行自训练以实现 OV-TAL 的可扩展性。我们的方法分为两个阶段:(1)在人工标注的 TAL 数据集上训练一个类别无关的动作定位器,以生成未标注视频的伪标签,以及(2)然后使用大规模伪标签数据集来训练定位器。大量的实验表明,在自训练中利用网络规模的视频显著提高了动作定位器的泛化能力。此外,我们还识别了现有 OV-TAL 评估方案中的局限性,并提出了一种新的基准来进行全面评估。最后,我们在新的基准上展示了大型多模态模型 Gemini-1.5 的 TAL 性能。代码已发布在 https://github.com/HYUNJS/STOV-TAL。