车内多模态监控技术近年来兴起,用于早期检测驾驶员异常状态并及时预警,预防交通事故。然而,尽管使用多模态数据训练模型能够提高异常状态检测的可靠性,但标注数据稀缺和类别分布不平衡的问题阻碍了关键异常状态特征的提取,严重降低了训练性能。此外,由于环境和硬件限制导致的模态缺失进一步加剧了异常状态识别的挑战。更重要的是,对乘客(特别是老年人)异常健康状况的监控至关重要,但仍未得到充分探索。为了应对这些挑战,我们引入了IC3M,这是一种基于相机旋转的高效多模态框架,用于监控车内驾驶员和乘客。我们的IC3M包含两个关键模块:自适应阈值伪标签策略和缺失模态重建。前者根据类别分布定制不同类别的伪标签阈值,生成类别平衡的伪标签以有效地指导模型训练;后者利用从有限标签中学习到的跨模态关系,通过从可用模态转移分布来准确恢复缺失的模态。大量的实验结果表明,IC3M在准确率、精确率和召回率方面均优于最先进的基准,并且在标注数据有限和模态缺失严重的情况下表现出优越的鲁棒性。
偏好优化 (PO) 技术目前是利用人类标注者提供的成对偏好反馈来微调大型语言模型 (LLM) 的最先进技术之一。然而,在机器翻译中,这种反馈很难获得。此外,Kreutzer 等人 (2018) 已经表明,对于机器翻译而言,成对偏好不如其他形式的人类反馈(例如 5 分制评分)可靠。我们研究后期编辑,以查看它们是否可以作为可靠的人类偏好的来源。在 PO 中,人类标注者会看到序列 s₁ 和 s₂ 并被要求进行偏好判断(s₁ > s₂);而对于后期编辑,编辑会创建 s₁ 并知道它应该比 s₂ 更好。我们尝试将这些隐式偏好用于 PO,并表明它有助于模型向类似后期编辑的假设移动,并远离类似机器翻译的假设。此外,我们表明,通过使用后期编辑进行监督微调 (SFT) 预训练模型,以促进类似后期编辑的假设进入顶级输出排名,可以获得最佳结果。
缺乏能够正确解释跨语言和文化图像字幕中感知差异的多语言视觉语言模型。本研究通过多模态、多语言检索案例研究,量化了现有模型灵活性的不足。我们通过实证研究表明,基于原生德语描述进行训练的模型与基于从英语机译或人工翻译成德语的描述进行训练的模型之间存在性能差距。为了解决这些差距,我们进一步提出并评估了字幕增强策略。虽然我们实现了平均查全率的提高(+1.3),但差距依然存在,这表明了该领域未来研究的一个开放方向。
数据集缩减 (DR) 旨在从大型数据集中选择或提取样本到较小的子集,同时保持目标任务的性能。现有方法主要关注以与原始数据集相同格式(通常是输入数据和相应的标签)修剪或合成数据。然而,在 DR 设置中,我们发现可以合成超出数据-标签对的更多信息作为额外的学习目标来促进模型训练。在本文中,我们介绍了使用特权信息的数据集缩减 (DRUPI),它通过与缩减数据集一起合成特权信息来丰富 DR。这种特权信息可以采取特征标签或注意力标签的形式,提供辅助监督以改进模型学习。我们的研究结果表明,有效的特征标签必须在过度区分和过度多样化之间取得平衡,中等水平被证明是提高缩减数据集有效性的最佳选择。在 ImageNet、CIFAR-10/100 和 Tiny ImageNet 上进行的大量实验表明,DRUPI 可以与现有的数据集缩减方法无缝集成,从而显著提高性能。*代码将在论文被接收后发布。*
大型语言模型 (LLM) 在许多自然语言处理任务中已经取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法……
组合性,即表达式的含义是由其各个部分的含义和句法规则构成的这一概念,使得人类语言具有无限的生产力。首次,人工语言模型 (LM) 能够在多项组合泛化任务中与人类的表现相匹配。然而,关于这些能力背后的表征机制,还有许多有待理解之处。我们采用了一种高层次的几何方法来解决这个问题,即将数据集中的组合性程度与它在 LM 下的表征的内在维度(一种特征复杂度的度量)联系起来。我们不仅发现数据集的组合性程度反映在表征的内在维度中,而且发现组合性和几何复杂性之间的关系是由于在训练过程中学习到的语言特征造成的。最后,我们的分析揭示了线性维度和非线性维度之间显著的对比,表明它们分别编码了语言组合的形式和语义方面。
离线强化学习(RL)的一个重要目标是从大型异构数据集中训练出具有高能力的通用智能体。然而,以往扩展离线RL的方法要么严重依赖专家轨迹,要么难以泛化到不同的未见任务。受条件视频生成中世界模型出色泛化能力的启发,我们探索了基于图像观测的世界模型在扩展离线RL和增强新任务泛化能力方面的潜力。本文介绍了JOWA:联合优化的世界-动作模型,这是一个基于离线模型的RL智能体,在包含60亿token数据的多个Atari游戏中进行预训练,以学习通用表示和决策能力。我们的方法通过共享的Transformer主干网络联合优化世界-动作模型,这在预训练过程中稳定了大型模型的时序差分学习。此外,我们提出了一种可证明高效且可并行的规划算法来补偿Q值估计误差,从而搜索出更好的策略。实验结果表明,我们最大的智能体(拥有1.5亿个参数)仅使用10%的子采样离线数据,在预训练游戏中就达到了78.9%的人类水平性能,平均比现有的最先进的大规模离线RL基线高出31.6%。此外,JOWA能够很好地扩展模型容量,并且可以使用每个游戏仅5k的离线微调数据(大约4条轨迹)高效地迁移到新的游戏中,展现了优越的泛化能力。我们将发布代码和模型权重到https://github.com/CJReinforce/JOWA。
大型语言模型(LLM)不断扩展的上下文窗口极大地增强了其在各种应用中的能力,但也带来了维持低延迟的重大挑战,尤其是在首个词元生成时间(TTFT)方面。本文发现,随着上下文长度的增加,TTFT 的急剧上升主要由排队延迟驱动,这是由于对 GPU 键值 (KV) 缓存分配的需求不断增长与 KV 缓存块的有限可用性之间发生冲突造成的。为了解决这个问题,我们提出了 LayerKV,这是一种简单而有效的插件方法,它可以在不增加额外硬件或影响输出性能的情况下有效地减少 TTFT,同时与现有的并行策略和调度技术无缝集成。具体来说,LayerKV 引入了分层 KV 块分配、管理和卸载,以对系统内存进行细粒度控制,并结合了面向 SLO 的调度器来优化整体服务水平目标 (SLO)。对从 70 亿到 700 亿参数的代表性模型在各种 GPU 配置上的综合评估表明,LayerKV 将 TTFT 延迟提高了高达 69 倍,并将 SLO 违规率降低了 28.7%,从而显著增强了用户体验。
大型语言模型 (LLM) 在执行各种任务时,展现出在众多行业领域有效泛化的卓越能力。许多这些能力都源自语言模型 (LM) 预训练阶段使用的数据。然而,当这些模型需要在专业或资源匮乏的行业领域执行任务时,就会表现出局限性。最近的方法使用 LLM 生成特定领域的合成数据,但大多数情况下,这些数据缺乏真实性和复杂性。或者,在医疗保健和金融等领域数据可用的情况下,大多数 LLM 都是专有的,因此需要一种可扩展的方法来整理现实世界中特定行业的预训练数据。在这项工作中,我们提出一个自动化且可扩展的框架——DoPAMine:基于种子引导数据挖掘的特定领域预训练自适应,用于从大型数据语料库中挖掘特定领域的训练数据,以实现 LM 的领域自适应。该框架利用 LLM 的参数化知识来生成针对特定领域量身定制的多样化和具有代表性的种子数据,然后将其用于从大型数据语料库(如 Common Crawl)中挖掘现实世界的数据。我们通过使用 DoPAMine 挖掘的数据训练两个特定领域的 70 亿参数 LLM(医疗保健和金融领域),在持续预训练 (CPT) 设置中评估了我们框架的性能。我们的实验表明,与基线相比,DoPAMine 在 MMLU、MedQA、MedMCQA 和 PubMedQA 数据集上的医疗保健任务中,在零样本和五样本设置下分别将预训练 LLM 的性能平均提高了 4.9% 和 5.1%;在 FiQA-SA、FPB 和 Headlines 数据集上的金融任务中,在零样本和五样本设置下分别提高了 2.9% 和 6.7%。
多视角自我中心手部追踪是一项极具挑战性的任务,在VR交互中扮演着关键角色。本报告提出一种利用多视角输入图像和相机外参来估计手部形状和姿态的方法。为减少对相机布局的过拟合,我们应用了裁剪抖动和外参噪声增强。此外,我们提出了一种离线神经平滑后处理方法,以进一步提高手部位置和姿态的精度。我们的方法在Umetrack数据集上取得了13.92mm MPJPE的精度,在HOT3D数据集上取得了21.66mm MPJPE的精度。
本研究利用自然语言处理(NLP)的最新进展,解决了评估基础学术技能的关键挑战。传统的评估方法往往难以对连贯性、句法和分析推理等关键认知和语言方面提供及时和全面的反馈。我们的方法在一个集成学习框架内整合了多个最先进的NLP模型,包括BERT、RoBERTa、BART、DeBERTa和T5。这些模型通过使用LightGBM和岭回归的堆叠技术组合,以提高预测精度。该方法包括详细的数据预处理、特征提取和伪标签学习,以优化模型性能。通过结合复杂的NLP技术和集成学习,本研究显著提高了评估的准确性和效率,提供了一种超越传统方法的稳健解决方案,并为专注于增强核心学术能力的教育技术研究开辟了新的途径。