arXiv:2410.05273v3 宣告类型: replace-cross
摘要:大型视觉-语言-行动(VLA)模型凭借其强大的预训练视觉-语言模型(VLM)后端的支持,展现了在机器人控制领域的潜力,得益于其令人印象深刻的泛化能力。然而,这种成功付出了代价。它们对含有数十亿参数的VLM后端的依赖导致了高昂的计算成本和推断延迟,限制了测试场景主要局限于准静态任务,并且阻碍了在需要快速交互的动态任务中的表现。为了解决这些局限性,本文提出了HiRT,一种分层机器人转换器框架,能够实现频率和性能的灵活权衡。HiRT 使VLM以较低的频率运行以捕获暂时不变的特征,同时通过基于缓慢更新特征的高频率视觉导向策略实现实时交互。在仿真和实际场景中的实验结果表明,相较于基线方法,显著提高了性能。从实验上讲,在静态任务中,我们将控制频率翻倍,并且实现了相当的成功率。此外,在先前的VLA模型难以应对的挑战性的实际动态操作任务中,HiRT 将成功率从 48% 提高到 75%。
arXiv:2410.04844v2 通知类型: replace-cross
摘要:在图像编辑领域,仍存在三个核心挑战:可控性、背景保留和效率。基于反演的方法依赖于耗时的优化来保留初始图像的特征,这导致效率低下,因为需要大量网络推理。相反,基于反演的方法缺乏关于背景相似性的理论支持,因为它们通过避免保持初始特征的问题来实现效率。因此,这些方法无法同时实现高效性和背景一致性。为了解决这些挑战和上述缺点,我们引入了PostEdit方法,该方法集成了后验方案来控制扩散采样过程。具体来说,引入了一个与初始特征和拉梅尔动力学相关的对应度量项,以优化由给定目标提示生成的估计图像。大量实验结果表明,所提出的PostEdit实现了最先进的编辑性能,同时准确保留未编辑区域。此外,该方法既不需要反演也不需要训练,且生成高质量结果所需的时间约为1.5秒,GPU内存约为18 GB。
arXiv:2410.04060v3 宣告类型: replace-cross
摘要: 低秩适应(LoRA)是一种流行的方法,参数高效的微调(PEFT),能够有效地适应大型预训练模型以应对下游任务。LoRA 使用低秩矩阵参数化模型更新,显著减少了可训练参数的数量,从而在微调过程中降低了资源需求。然而,由于使用了低秩矩阵模型,可训练参数的数量下限仍然很高。近期的工作通过提出基于低秩张量的模型更新参数化来解决了这一限制,但这些方法仅利用了层间冗余,或者使用了非标准方案对个体矩阵进行张量转换,引入了额外的超参数。在本文中,我们提出了一种更高阶的 Candecomp/Parafac(CP)分解,使得与现有的基于矩阵和张量的方法相比,能够提供一种更紧凑和更具灵活性的表示。我们在自然语言理解、指令微调、偏好优化和蛋白质折叠基准上的实验表明,我们的方法可以在维持相当性能的同时减少参数数量。
arXiv:2410.02995v3 通知类型: replace-cross
摘要:智能机器人领域的一个基本目标是朝着能够随着时间学习和适应未见过的新场景的终身学习机器人发展。然而,持续学习新任务会由于数据分布的变化而导致灾难性遗忘问题。为了缓解这一问题,我们存储了之前任务的一部分数据,并以两种方式利用这些数据:利用经验回放来保留学到的技能,并应用一种新的基于检索的局部适应技术来恢复相关知识。由于终身学习的机器人必须在未指定任务的场景中操作,其中任务ID甚至边界根本不可用,因此我们的方法在不依赖这些信息的情况下仍然能够有效运行。我们还引入了选择性加权机制,专注于最“遗忘”的技能段,以确保有效的知识恢复。针对各种各样的操作任务的实验结果表明,我们的框架为终身学习提供了可扩展的范式,在开放性、未指定任务的场景中提升了机器人的性能。
arXiv:2410.02724v2 宣告类型: replace-cross
摘要:大语言模型(LLMs)在各种自然语言处理任务以及更广泛的领域内表现出惊人的效率。然而,对LLMs的泛化能力的全面理论分析仍然难以捉摸。在我们的论文中,我们通过将自回归变压器语言模型与有限状态空间上的Markov链之间的等效性联系起来,来解决这一问题。这样,我们能够从第一原理出发研究LLMs的多步推理机制。我们将获得的结果与LLMs观察到的病态行为,如重复和高温下的非连贯回复联系起来。最后,我们利用所提出的形式化方法,在实际数据和模型假设下推导出LLMs的预训练和上下文学习泛化界线。最新的Llama和Gemma模型群组的实验表明,我们的理论在实践中正确捕捉到了它们的行为。
arXiv:2410.02628v2 宣告类型: replace-cross
摘要:学习条件分布 $\pi^*(\cdot|x)$ 是机器学习中的一个核心问题,通常通过带有配对数据 $(x, y) \sim \pi^*$ 的监督方法来解决。然而,获取配对数据样本往往具有挑战性,尤其是在领域转换等问题中。这要求开发出既能利用有限的配对数据,又能利用额外的独立同分布的未配对样本 $x \sim \pi^*_x$ 和 $y \sim \pi^*_y$ 的半监督模型。这种组合数据的使用较为复杂,通常依赖于启发式方法。为了解决这一问题,我们提出了一种新的学习范式,通过数据似然最大化技术无缝地结合了配对数据和未配对数据。我们证明我们的方法还与逆熵最优传输 (OT) 有着有趣的关系。这一发现使得我们能够利用最新的计算 OT 方法建立一种轻量级的学习算法来获取 $\pi^*(\cdot|x)$。此外,我们的方法通过实证测试表明,能够有效利用配对和未配对数据同时学习条件分布。
arXiv:2410.02147v2 宣传类型: 替换交叉
摘要: 在本文中,我们提出了一种在时间序列上下文中高效源-free领域适应(SFDA)的框架,旨在提高参数效率和数据样本利用效率。我们的方法引入了改进的源模型准备和目标侧适应范式,旨在在目标适应期间提高训练效率。具体来说,我们以Tucker风格分解源模型的权重,在源模型准备阶段将模型因子化为紧凑形式。在目标侧适应期间,仅微调这些分解因子的一部分,从而显著提高了训练效率。我们使用PAC贝叶斯分析证明,这种选择性的微调策略通过限制模型的学习能力隐式地正则化了适应过程。此外,这种重新参数化减少了整体模型大小并提高了推断效率,使该方法特别适用于资源受限的设备。另外,我们证明了该框架与其他各种SFDA方法兼容,并在保持模型性能的同时,将需要微调的参数数量和MACs的推断开销减少了超过90%。
arXiv:2410.01686v2 更新类型: 替换-交叉
摘要:神经网络执行算法任务(例如,算术运算、总结统计和排序)的能力正日益引起人们的兴趣。本文的目标是更好地理解 Transformer 在执行算法任务中的作用。算法执行的重要性已经通过使用并行计算模型的理论和实验证明。值得注意的是,许多并行算法仅使用位置信息在处理器之间进行通信。受到这一观察的启发,我们研究了 Transformer 如何使用位置注意力执行算法,其中注意力权重仅依赖于位置编码。我们证明,使用位置注意力(位置 Transformer)的 Transformer 在相对于输入长度而言具有对数深度成本的情况下,保留了与并行计算模型相同的表达能力。我们分析了它们在训练数据中的可学习性,并探讨了位置注意力中的参数范数如何影响样本复杂性。我们的结果表明,位置 Transformer 引入了学习权衡:虽然它们在参数范数上的理论依赖性表现更好,但在某些任务中可能需要更多的层,这又可能增加样本复杂性。最后,我们通过实验研究了位置 Transformer 的泛化性能,并发现它们在依赖位置信息的算法解决方案的任务中表现良好。
arXiv:2410.00418v2 公告类型: 替换-交叉
摘要:照片逼真图像恢复算法通常通过失真度量(例如,PSNR,SSIM)和感知质量度量(例如,FID,NIQE)进行评估,目标是在不牺牲感知质量的情况下达到尽可能低的失真度量。为了实现这一目标,当前方法通常尝试从后验分布中采样,或者优化失真损失(例如,MSE)和感知质量损失(例如,GAN)的加权和。与以往工作不同,本文专门关注在完美感知指数约束下的最小均方误差的最优估计器,即重建图像的分布等于真实图像的分布。最近一个理论结果表明,可以通过优化地将后验均值预测(MMSE估计)运送到真实图像的分布来构造这样的估计器。受这一结果的启发,我们引入了后验均值校正流(PMRF),这是一种简单而高效的算法,近似这种最优估计器。特别是,PMRF 首先预测后验均值,然后使用一个近似所需最优输运映射的校正流模型,将结果转移到一个高质量的图像上。我们研究了PMRF的理论有效性,并证明它在多种图像恢复任务中始终优于以往的方法。
arXiv:2409.20423v5 宣告类型: 替换交叉
摘要: 流匹配(FM)是一类用于拟合连续正则流(CNFs)的训练算法。条件流匹配(CFM)利用了CNF的边际向量场可以通过对给定流路径两端之一或两者指定的条件向量场进行最小二乘回归拟合来学习的事实。在本文中,我们通过定义沿“流”(流的实例,连接数据对的源和目标的潜在随机路径)的条件概率路径,扩展了CFM算法,这些流用高斯过程(GP)分布进行建模。高斯过程的独特分布特性有助于保持CFM训练的“无需模拟”性质。我们展示了这种CFM的扩展可以在适度的计算成本下有效地降低估计边际向量场的方差,从而在常用指标下改善生成样本的质量。此外,通过在流上采用高斯过程,可以灵活地链接多个相关的训练数据点(例如,时间序列)。通过模拟和图像及神经时间序列数据的应用,我们实证验证了我们的主张。