软体机器人凭借其能够与环境建立安全、稳健且适应性强的交互的能力,有潜力彻底改变机器人系统的应用,但其精确控制仍然具有挑战性。相比之下,传统的刚性机器人具有很高的精度和重复性,但缺乏软体机器人的灵活性。我们认为,将这些特征结合在一个混合机器人平台中可以显著增强整体功能。这项工作提出了一种新颖的混合机器人平台,该平台将刚性机械手与完全开发的软臂集成在一起。该系统配备了必要的智能,可以通过模仿学习自主执行灵活且可泛化的任务。物理柔软性和机器学习使我们的平台能够实现高度可泛化的技能,而刚性组件则确保精度和重复性。
针对特定任务的数据微调对于提升下游性能至关重要,是充分利用大型语言模型 (LLM) 的关键步骤。然而,以往研究表明,在多个对抗样本甚至良性数据上微调模型会严重损害模型预先配备的对齐和安全能力。在本研究中,我们提出了 SEAL,一个用于增强 LLM 微调安全性的新颖框架。SEAL 基于双层优化学习数据排序器,以提升安全且高质量的微调数据的排名,并降低不安全或低质量数据的排名。使用 SEAL 训练的模型在多个基准测试中表现出优于其他模型的质量,与随机选择相比,Llama-3-8b-Instruct 和 Merlinite-7b 模型的获胜率分别提高了 8.5% 和 9.7%。我们的代码已发布在 GitHub 上:https://github.com/hanshen95/SEAL。
我们介绍了 DA-Code,一个专门用于评估大型语言模型 (LLMs) 在基于代理的数据科学任务上的代码生成基准。该基准包含三个核心要素:首先,DA-Code 中的任务本质上具有挑战性,与传统的代码生成任务不同,需要在基础和规划方面具备高级编码技能。其次,DA-Code 中的示例全部基于真实且多样化的数据,涵盖了各种复杂的数据整理和分析任务。第三,为了解决这些任务,模型必须使用复杂的数据科学编程语言,以执行复杂的数据处理并得出答案。我们在一个可控且可执行的环境中设置了基准,该环境与现实世界的数据分析场景一致,并且可扩展。标注人员精心设计了评估套件,以确保评估的准确性和稳健性。我们开发了 DA-Agent 基线。实验表明,尽管基线比其他现有框架表现更好,但使用当前最好的 LLMs 仅实现了 30.5% 的准确率,还有很大的改进空间。我们将在 https://da-code-bench.github.io 发布我们的基准。
本文介绍了 ELMO,一个为单一 LiDAR 传感器设计的实时上采样动作捕捉框架。ELMO 被建模为基于条件自回归 Transformer 的上采样动作生成器,能够从 20fps 的 LiDAR 点云序列中实现 60fps 的动作捕捉。ELMO 的关键特征是将自注意力机制与精心设计的动作和点云嵌入模块相结合,显著提高动作质量。为了便于准确的动作捕捉,我们开发了一个一次性骨骼校准模型,能够从单帧点云中预测用户骨骼偏移。此外,我们引入了一种新颖的数据增强技术,利用 LiDAR 模拟器增强全局根轨迹跟踪,以改善环境理解。为了证明我们方法的有效性,我们在基于图像和基于点云的动作捕捉中将 ELMO 与最先进的方法进行了比较。我们还进行了消融研究以验证我们的设计原则。ELMO 的快速推理时间使其非常适合实时应用,例如我们的演示视频展示了实时流媒体和互动游戏场景。此外,我们贡献了一个高质量的 LiDAR-mocap 同步数据集,包含 20 个不同主题执行一系列动作,可以作为未来研究的宝贵资源。数据集和评估代码可在 {\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}} 获取。
大型语言模型(LLMs)的快速发展伴随着模型规模的不断扩大,导致模型训练和推理成本不断增加。先前研究发现,LLMs 中的某些层存在冗余,移除这些层只会导致模型性能的轻微损失。本文采用探测技术解释 LLMs 中的层冗余,并证明可以使用探测分类器有效地对语言模型进行剪枝。我们提出了芯片调优,这是一种简单有效的结构化剪枝框架,专门针对分类问题。芯片调优将名为芯片的小型探测分类器附加到 LLMs 的不同层,并在冻结主干模型的情况下训练芯片。在选择一个用于分类的芯片后,所有后续于附加层的层都可以被移除,而性能损失微乎其微。在各种 LLMs 和数据集上的实验结果表明,芯片调优在准确性和剪枝率方面显著优于先前最先进的基线,实现了高达 50% 的剪枝率。我们还发现,芯片调优可以应用于多模态模型,并且可以与模型微调相结合,证明了其出色的兼容性。
深度学习正被积极地应用于生物识别领域,以开发高效的身份识别和验证系统。手写签名是用于身份验证的生物识别数据的一个常见子集。生成对抗网络 (GAN) 从原始签名和伪造签名中学习,以生成伪造签名。虽然大多数 GAN 技术都创建了强大的签名验证器(即鉴别器),但需要更多地关注生成器模型生成的伪造质量。本研究侧重于创建一个生成器,该生成器可以生成达到欺骗签名验证系统基准的伪造样本。我们使用融合了注意力头的类 Inception 模型块的 CycleGAN 作为生成器,以及 SigCNN 模型的变体作为基本鉴别器。我们使用一种新技术训练我们的模型,该技术在签名欺骗方面的成功率达到 80% 到 100%。此外,我们创建了一种自定义评估技术,作为生成伪造质量的衡量标准。我们的研究倡导以生成器为中心的 GAN 架构,用于欺骗数据质量,这有助于更好地理解生物识别数据生成和评估。
本文重点研究在微调阶段通过从预训练的文本到视频(T2V)模型中提取一个高性能一致性模型来增强基于扩散的 T2V 模型。我们提出的方法 T2V-Turbo-v2 引入了一个重大改进,将各种监督信号(包括高质量训练数据、奖励模型反馈和条件引导)整合到一致性蒸馏过程中。通过全面的消融研究,我们强调了根据特定学习目标定制数据集的重要性,以及从不同的奖励模型中学习以提高视觉质量和文本视频对齐的有效性。此外,我们强调了条件引导策略的广阔设计空间,其核心是设计一个有效的能量函数来增强教师 ODE 求解器。我们通过从训练数据集中提取运动引导并将其整合到 ODE 求解器中来证明这种方法的潜力,展示了它在提高生成视频运动质量方面的有效性,并通过 VBench 和 T2V-CompBench 改善了与运动相关的指标。从经验上看,我们的 T2V-Turbo-v2 在 VBench 上取得了新的最先进的结果,总分达到 85.13,超过了 Gen-3 和 Kling 等专有系统。
持续学习 (CL) 旨在赋予机器学习模型从新数据中持续学习的能力,同时建立在先前获得的知识基础上,避免遗忘。随着机器学习模型从小型预训练架构发展到大型预训练架构,以及从支持单模态数据发展到支持多模态数据,多模态持续学习 (MMCL) 方法近年来应运而生。MMCL 的主要挑战在于它超越了简单堆叠单模态 CL 方法,因为这种直接的方法通常会导致令人不满意 的性能。在这项工作中,我们对 MMCL 进行了首次全面综述。我们提供了必要的背景知识和 MMCL 设置,以及 MMCL 方法的结构化分类。我们将现有的 MMCL 方法分为四类,即基于正则化的、基于架构的、基于重放的和基于提示的方法,解释了它们的方法论并突出了它们的关键创新。此外,为了促进该领域的进一步研究,我们总结了开放的 MMCL 数据集和基准,并讨论了几个有希望的未来研究和发展方向。我们还创建了一个 GitHub 存储库来索引相关的 MMCL 论文和开放资源,可在 https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning 获取。
嵌入模型在实现各种下游任务方面至关重要,例如语义相似性、信息检索和聚类。最近,人们对开发能够跨任务泛化的通用文本嵌入模型产生了浓厚兴趣(例如,MTEB)。然而,尽管通用多模态嵌入模型非常重要,但其学习进展相对缓慢。在这项工作中,我们旨在探索构建能够处理各种下游任务的通用嵌入的潜力。我们的贡献有两方面:(1)MMEB(大规模多模态嵌入基准),涵盖 4 个元任务(即分类、视觉问答、多模态检索和视觉定位)和 36 个数据集,包括 20 个训练数据集和 16 个评估数据集,以及(2)VLM2Vec(视觉语言模型 -> 向量),一个对比训练框架,通过在 MMEB 上训练将任何最先进的视觉语言模型转换为嵌入模型。与 CLIP 和 BLIP 等先前模型不同,VLM2Vec 可以处理图像和文本的任何组合,根据任务指令生成固定维度的向量。我们在 Phi-3.5-V 上构建了一系列 VLM2Vec 模型,并在 MMEB 的评估拆分上对其进行评估。我们的结果表明,VLM2Vec 在 MMEB 中的分布内和分布外数据集上,与现有的多模态嵌入模型相比,平均绝对改进率为 10% 到 20%。
深度神经网络在不同模型之间以及自身层级内部,常常学习到相似的内部表示。虽然网络间相似性已催生了模型拼接和合并等技术,但网络内相似性为设计更高效的架构带来了新的机遇。本文研究了不同神经架构中不同层级之间内部相似性的出现,表明相似性模式独立于所用数据集而出现。我们引入了一个简单的指标——块冗余度,来检测冗余块,为未来的架构优化方法奠定了基础。在此基础上,我们提出了冗余块近似(RBA)框架,该框架使用更简单的变换来识别和近似一个或多个冗余计算块。我们证明了两种表示之间的变换$\mathcal{T}$可以有效地用闭式解计算,并且足以用它来替换网络中的冗余块。RBA 减少了模型参数和时间复杂度,同时保持了良好的性能。我们使用各种预训练的基础模型和数据集,在视觉领域的分类任务中验证了我们的方法。