我们提交了 BabyLM 挑战赛的方案,旨在突破数据高效型语言模型预训练的界限。我们的方法基于深度互学习,引入了学生模型的多样化初始化搜索。我们通过将加权互学习表述为双层优化问题来解决平等对待学生模型的局限性。内循环通过在线蒸馏学习紧凑型学生模型,而外循环则优化权重以更好地从多样化的学生模型中进行知识蒸馏。这种动态加权策略消除了对教师模型的需求,降低了计算需求。我们的评估结果表明,无教师方法可以匹配甚至超越教师监督方法。
本文提出了一种用于自动驾驶的新型轨迹预测模型,该模型结合了特征扩散模块和时空交互网络,以应对动态和异构交通环境带来的挑战。我们的模型通过结合不确定性估计和复杂的代理交互作用,提高了轨迹预测的准确性和可靠性。通过在NGSIM、HighD和MoCAD等公共数据集上的大量实验,我们的模型显著优于现有的最先进方法。我们证明了它能够捕捉交通场景中潜在的时空动态,并提高预测精度,尤其是在复杂环境中。该模型展现出在实际自动驾驶系统中应用的巨大潜力。
在极端资源受限的设备上直接训练机器学习和深度学习模型是微型机器学习领域的下一个挑战。该领域的相关文献非常有限,因为大多数解决方案只关注设备上推理或通过在线学习进行模型自适应,而将训练留给外部云服务。一个有趣的技术视角是利用联邦学习 (FL),它允许多个设备以分布式方式协同训练共享模型。然而,最先进的 FL 算法的主要缺点是它们不适合在小型设备上运行。本文首次在文献中介绍了 TIFeD,这是一种基于 Tiny 整数的联邦学习算法,它采用直接反馈校准 (DFA),完全使用纯整数算术实现,并专门设计用于在内存、计算和能源方面资源有限的设备上运行。除了传统的全网络运行模式(其中 FL 设置中的每个设备都在其自己的本地数据上训练整个神经网络),我们提出了一种创新的单层 TIFeD 实现,它使每个设备能够仅训练神经网络模型的一部分,并为在多个设备之间分配学习过程开辟了一条新途径。实验结果表明了该方案的可行性和有效性。提出的 TIFeD 算法及其全网络和单层实现已作为公共存储库提供给科学界。
事件序列数据记录了事件在连续时间内的发生情况。基于时间点过程 (TPP) 的事件序列预测已被广泛研究,但异常值或异常检测,尤其是在没有任何人工监督的情况下,仍然未被充分探索。在这项工作中,据我们所知,我们开发了第一个用于检测异常事件的无监督异常值检测方法。我们新颖的无监督异常值检测框架基于生成对抗网络 (GAN) 和强化学习 (RL) 的思想。我们训练一个“生成器”来校正数据中的异常值,并训练一个“鉴别器”来学习区分校正后的数据和可能包含异常值的真实数据。一个关键的见解是,如果生成器在校正过程中犯了错误,它将生成与真实数据中异常值不同的异常值,因此它可以作为鉴别器学习的数据增强。与典型的基于 GAN 的异常值检测方法不同,我们的方法采用生成器以在线方式检测异常值。实验结果表明,我们的方法比最先进的方法能够更准确地检测事件异常值。
零样本目标导航 (ZSON) 任务要求具身智能体在陌生的环境中导航,找到之前从未见过的物体。这种目标导向的探索严重依赖于感知、理解和推理环境空间信息的能力。然而,目前的基于大型语言模型 (LLM) 的方法将视觉观察转换为语言描述并在语言空间中进行推理,导致空间信息的丢失。本文介绍了 TopV-Nav,一种基于多模态大型语言模型 (MLLM) 的方法,它可以直接利用具有完整空间信息的俯视图进行推理。为了充分发挥 MLLM 在俯视图视角下的空间推理潜力,我们提出了自适应视觉提示生成 (AVPG) 方法,以自适应地构建语义丰富的俯视图。这使得智能体能够直接利用俯视图中包含的空间信息进行彻底的推理。此外,我们设计了一种动态地图缩放 (DMS) 机制,以动态缩放俯视图到首选比例,增强局部细粒度推理。此外,我们设计了一种目标引导导航 (TGN) 机制来预测和利用目标位置,促进全局和类人探索。在 MP3D 和 HM3D 基准测试上的实验结果证明了 TopV-Nav 的优越性,例如,在 HM3D 上成功率 (SR) 提高了 +3.9%,平均成功率 (SPL) 提高了 +2.0%。
航空工业正快速发展,技术进步是其驱动力。商用航空航天中使用的涡扇发动机是极其复杂的系统。大部分涡扇发动机部件在其运行寿命期间都容易发生退化。涡扇发动机的退化会影响发动机的性能、可操作性和可靠性。基于各种复杂传感器数据准确预测商用涡扇发动机的剩余使用寿命 (RUL) 对于乘客安全、飞行安全和经济高效的运营至关重要。因此,对涡扇发动机进行监控、控制和维护至关重要。RUL 预测可以来自基于模型的方法或基于数据的方法。基于模型的方法由于数学模型的复杂性和对物理系统领域深厚专业知识的需求而可能非常昂贵。如今,由于计算机的高计算复杂性、机器学习 (ML) 模型的进步以及传感器的进步,基于数据的方法更常用。本文将重点关注双向长短期记忆 (BLSTM) 模型,但也将提供几个基于数据的 RUL 预测模型的基准。拟议的 RUL 预测模型将基于发动机故障预测基准数据集——商用模块化航空推进系统仿真 (CMAPSS) 进行评估。CMAPSS 数据集来自 NASA,其中包含涡扇发动机失效事件。
本文探讨了技术与文化保护的交汇,通过开发一个用于对历史手稿中音乐符号进行分类的自监督学习框架。光学音乐识别 (OMR) 在数字化和保护音乐遗产方面发挥着至关重要的作用,但历史文献往往缺乏传统方法所需的标记数据。我们通过使用未标记数据训练基于神经网络的特征提取器来克服这一挑战,从而能够用最少的样本实现有效的分类。主要贡献包括:针对自监督卷积神经网络优化裁剪预处理,并评估包括支持向量机 (SVM)、多层感知器和原型网络在内的分类方法。我们的实验获得了 87.66% 的准确率,展示了人工智能驱动的方法通过先进的数字存档技术确保历史音乐传承的潜力。
尽管基于深度学习的计算机视觉取得了最近的进展,但领域迁移仍然是主要的挑战之一。自动驾驶中的语义分割面临着各种各样的领域迁移,例如由天气变化、新的地理位置以及模型训练中合成数据的频繁使用所导致的。无监督领域自适应 (UDA) 方法已经出现,这些方法仅使用该领域未标记的数据来使模型适应新的目标领域。UDA 方法种类繁多,但它们都使用 ImageNet 预训练模型。最近,视觉语言模型展现出强大的泛化能力,这可能有助于领域自适应。我们表明,仅将 DACS 等现有 UDA 方法的编码器替换为视觉语言预训练编码器,就可以在 GTA5 到 Cityscapes 的领域迁移上实现高达 10.0% mIoU 的显著性能提升。对于对未见领域的泛化性能,新采用的视觉语言预训练编码器在三个未见数据集上的提升高达 13.7% mIoU。然而,我们发现并非所有 UDA 方法都能轻松地与新的编码器配对,并且 UDA 性能并不总是同样转化为泛化性能。最后,我们在恶劣天气条件下的领域迁移上进行了实验,以进一步验证我们在纯真实到真实的领域迁移上的发现。
手写乐谱的生成对于增强光学乐谱识别 (OMR) 系统至关重要,而 OMR 系统的最佳性能依赖于大型且多样化的数据集。然而,通常保存在档案中的手写乐谱由于其易损性、书写风格多样以及图像质量问题,给数字化带来了挑战。本文通过应用生成对抗网络 (GAN) 来合成逼真的手写乐谱,从而解决了数据稀缺的问题。我们对三种 GAN 模型——DCGAN、ProGAN 和 CycleWGAN——进行了全面的评估,比较了它们生成多样化和高质量手写乐谱图像的能力。提出的 CycleWGAN 模型增强了风格迁移和训练稳定性,在定性和定量评估中均显著优于 DCGAN 和 ProGAN。CycleWGAN 取得了优异的性能,FID 分数为 41.87,IS 为 2.29,KID 为 0.05,使其成为改进 OMR 系统的有前景的解决方案。
知识增强型语言模型 (KELMs) 已成为弥合大型语言模型与特定领域知识之间差距的有前景的工具。通过利用知识图谱 (KGs),KELMs 可以实现更高的事实准确性并减轻幻觉问题。它们经常与适配器模块结合使用,以减少计算负载和灾难性遗忘的风险。本文对基于适配器的 KELMs 方法进行了系统的文献综述 (SLR)。我们通过定量和定性分析,对该领域现有的方法进行了结构化的概述,并探讨了各种方法的优势和潜在不足。我们发现,人们经常探索通识和特定领域的知识,以及各种适配器架构和下游任务。我们特别关注流行的生物医学领域,并对现有的 KELMs 进行了深入的性能比较。我们概述了主要趋势,并提出了有前景的未来方向。