大型语言模型 (LLM) 通常依赖于检索增强生成来即时利用知识材料,或者需要外部信号(例如人类偏好数据和更强的 LLM 注解)来进行知识适应。为了释放 LLM 的自我学习潜力,我们提出了 KBAda,这是一种旨在高效适应涉及知识库的下游任务的方法。我们的方法利用迭代训练和自我标注数据(例如问答对和修改建议),使模型能够高效地掌握知识内容。在多个数据集上的实验结果证明了我们方法的有效性,显著提高了下游任务中需要特定知识的模型性能,且成本低廉。值得注意的是,我们的方法实现了使用 GPT-4-turbo 注解所能获得的性能提升的 90% 以上,同时完全依赖于自监督学习。我们将实验数据、模型和过程分析发布到社区,以供进一步探索(https://github.com/thunlp/KBAda)。
理解未来区域和局部尺度的天气变化对于规划和决策至关重要,尤其是在极端天气事件的背景下,以及在农业、保险和基础设施发展等更广泛的应用中。然而,将全球气候模型 (GCM) 降尺度到此类应用所需的高分辨率,其计算成本构成重大障碍。本研究借鉴天气预报模型的最新进展,提出了一种使用预训练地球视觉Transformer (Earth ViT) 模型的经济高效的降尺度方法。该模型最初在 ERA5 数据上进行训练,以将分辨率从 50 公里降尺度到 25 公里,然后在 3 公里分辨率的更高分辨率 BARRA-SY 数据集上进行测试。值得注意的是,它在无需额外训练的情况下表现良好,证明了其跨不同分辨率泛化的能力。这种方法有望通过降尺度具有不同输入分辨率的 GCM 来生成区域气候模拟的大型集合,而无需产生额外的训练成本。最终,这种方法可以提供对关键气候变量未来潜在变化更全面的估计,从而有助于有效规划极端天气事件和气候变化适应战略。
音乐调式是建立音高组织框架并决定谐和关系的最关键因素之一。以往的研究常常采用简单僵化的比对方法,忽略了调式的多样性。然而,与人工智能模型不同,人类拥有感知各种调式和调的认知机制。本文提出了一种受大脑机制和心理学理论启发的脉冲神经网络,用于表示音乐调式和调,最终生成包含音调特征的乐曲。具体贡献如下:1)该模型设计了多个协同工作的子系统,其灵感来源于相应大脑区域的结构和功能;2)我们结合了神经回路进化学习机制,使网络能够学习和生成音乐中与调式相关的特征,反映了人类音乐感知中涉及的认知过程;3)结果表明,该模型显示出的连接框架与 Krumhansl-Schmuckler 模型(音乐心理学领域最重要的调性感知模型之一)非常相似;4)实验表明,该模型可以生成具有给定调式和调特征的乐曲。此外,对生成乐曲的定量评估表明,生成的乐曲既具有音调特征,又具有生成多样化和音乐内容所需的旋律适应性。通过将神经科学、心理学和音乐理论的见解与先进的神经网络架构相结合,我们的研究旨在创建一个不仅能够学习和生成音乐,而且能够弥合人类认知与人工智能之间差距的系统。
轨迹表示学习 (TRL) 将轨迹映射到可用于许多下游任务的向量。现有的 TRL 方法使用网格轨迹(捕捉自由空间中的运动)或道路轨迹(捕捉道路网络中的运动)作为输入。我们观察到这两种类型的轨迹是互补的,分别提供区域和位置信息或道路结构和运动规律性信息。因此,我们提出了一种新颖的多模态 TRL 方法,称为 GREEN,以联合利用网格和道路轨迹表达式进行有效的表示学习。具体来说,我们将原始 GPS 轨迹转换为网格轨迹和道路轨迹,并定制两个编码器来捕捉它们各自的信息。为了使这两个编码器相互补充,我们采用对比损失来鼓励它们对相同的原始轨迹产生相似的嵌入,并设计了一个掩码语言模型 (MLM) 损失来使用网格轨迹帮助重建被掩码的道路轨迹。为了学习最终的轨迹表示,使用双模态交互器通过交叉注意力融合两个编码器的输出。我们将 GREEN 与 7 种最先进的 TRL 方法进行了比较,用于 3 个下游任务,发现 GREEN 始终优于所有基线,并将最佳基线的准确率平均提高了 15.99%。
高效的视频分词仍然是训练能够处理长视频的视觉模型的一大挑战。一个很有前景的方向是开发能够编码长视频片段的分词器,因为它能够使分词器更好地利用视频的时间连贯性进行分词。然而,在长视频上训练现有的分词器往往会产生巨大的训练成本,因为它们被训练成一次性重建所有帧。在本文中,我们介绍了CoordTok,这是一种视频分词器,它学习从基于坐标的表示到输入视频相应补丁的映射,其灵感来自最近 3D 生成模型的进展。特别是,CoordTok 将视频编码为分解的三平面表示,并重建对应于随机采样的 (x,y,t) 坐标的补丁。这允许直接在长视频上训练大型分词器模型,而无需过多的训练资源。我们的实验表明,CoordTok 可以大幅减少编码长视频片段所需的标记数量。例如,CoordTok 可以将一个 128 帧、分辨率为 128×128 的视频编码成 1280 个标记,而基线则需要 6144 或 8192 个标记才能达到类似的重建质量。我们进一步表明,这种高效的视频分词能够实现内存高效的扩散变换器训练,该变换器可以一次生成 128 帧。
大型数据和云计算环境中高效管理存储资源需要准确识别数据的“冷”和“热”状态。传统的基于规则的算法和早期人工智能技术等方法往往难以应对动态工作负载,导致精度低、适应性差以及运营开销高。为了解决这些问题,我们提出了一种基于在线学习策略的新颖解决方案。我们的方法能够动态适应不断变化的数据访问模式,从而实现更高的精度和更低的运营成本。使用合成数据集和真实数据集进行的严格测试表明,该方法取得了显著改进,在冷热分类中的准确率达到90%。此外,计算和存储开销也大大降低。
近期自动驾驶系统取得的进展已转向减少对高精度地图(HDMap)的依赖,因为高精度地图的标注和维护成本巨大。研究人员转而关注利用车载传感器进行在线矢量化 HDMap 建设。然而,仅依靠传感器的方法仍然面临远程感知的挑战,因为车载摄像头的安装角度限制了视野,正如人类驾驶员也依赖鸟瞰导航地图来全面了解道路结构一样。为了解决这些问题,我们提出训练感知模型以“查看”标准定义地图(SDMap)。我们将 SDMap 元素编码为神经空间地图表示和实例令牌,然后将这些补充特征作为先验信息纳入,以改进用于车道几何和拓扑解码的鸟瞰图 (BEV) 特征。基于车道段表示框架,该模型同时预测车道、中心线及其拓扑结构。为了进一步增强几何预测和拓扑推理能力,我们还使用拓扑引导解码器,通过利用拓扑和几何特征之间的相互关系来细化预测结果。我们在 OpenLane-V2 数据集上进行了广泛的实验以验证所提出的方法。结果表明,我们的模型比最先进的方法有了很大的改进,在 mAP 和拓扑指标上分别提高了 +6.7 和 +9.1。我们的分析还表明,使用 SDMap 噪声增强训练的模型表现出增强的鲁棒性。
基于Transformer的模型近期通过利用自注意力机制促进了点云理解的发展,然而,这些方法常常忽略不太显著区域中的潜在信息,导致对扰动的敏感性增加以及全局理解能力有限。为了解决这个问题,我们引入了PointACL,一个旨在解决这些局限性的注意力驱动对比学习框架。我们的方法采用了一种注意力驱动的动态掩码策略,引导模型关注未充分关注的区域,增强对点云中全局结构的理解。然后,我们将原始预训练损失与对比学习损失相结合,从而提高特征判别能力和泛化能力。大量的实验验证了PointACL的有效性,因为它在各种3D理解任务中取得了最先进的性能,包括目标分类、部件分割和少样本学习。具体来说,当与Point-MAE和PointGPT等不同的Transformer主干网络集成时,PointACL在ScanObjectNN、ModelNet40和ShapeNetPart等数据集上展现出改进的性能。这突显了其在捕捉全局和局部特征方面的优越能力,以及其增强的抗扰动性和对不完整数据的鲁棒性。
少样本学习为计算病理学 (CPath) 中的癌症诊断提供了一种关键解决方案,解决了数据可用性方面的根本性局限性,特别是专家注释的稀缺性和患者隐私限制。这种范式中的一个关键挑战源于有限的整张切片图像 (WSI) 训练集与包含的大量图像块之间固有的差异,其中大部分图像块缺乏诊断相关信息,这可能会稀释模型学习和关注关键诊断特征的能力。虽然最近的一些工作试图通过结合额外的知识来解决这个问题,但几个关键差距阻碍了进一步的进展:(1)尽管强大的病理基础模型 (FM) 出现,但其潜力在很大程度上尚未得到开发,大多数方法将其用途限制在基本的特征提取上;(2)当前的语言指导机制试图将文本提示与大量的 WSI 图像块同时对齐,难以利用丰富的病理语义信息。为此,我们引入了知识增强的自适应视觉压缩框架,称为 FOCUS,它独特地结合了病理 FM 和语言先验知识,通过优先处理具有判别性的 WSI 图像块来实现对诊断相关区域的重点分析。我们的方法实现了一个渐进的三阶段压缩策略:我们首先利用 FM 进行全局视觉冗余消除,并将压缩后的特征与语言提示相结合以进行语义相关性评估,然后在保持空间一致性的同时执行邻域感知视觉标记过滤。在涵盖乳腺癌、肺癌和卵巢癌的病理数据集上进行的大量实验表明,它在少样本病理诊断中具有优越的性能。代码将可在 https://github.com/dddavid4real/FOCUS 获取。
高质量纹理贴图对于逼真的3D资产渲染至关重要,但很少有研究探索直接在纹理空间中学习,尤其是在大型数据集上。在这项工作中,我们放弃了依赖预训练的二维扩散模型来进行三维纹理测试时间优化的传统方法。相反,我们专注于在UV纹理空间本身进行学习这一基本问题。我们首次训练了一个大型扩散模型,能够以前馈方式直接生成高分辨率纹理贴图。为了促进在高分辨率UV空间中的高效学习,我们提出了一种可扩展的网络架构,该架构将UV贴图上的卷积与点云上的注意力层交织在一起。利用这种架构设计,我们训练了一个具有7亿参数的扩散模型,该模型可以根据文本提示和单视图图像生成UV纹理贴图。一旦训练完成,我们的模型自然支持各种扩展应用,包括文本引导的纹理修复、稀疏视图纹理补全和文本驱动的纹理合成。项目页面位于http://cvmi-lab.github.io/TEXGen/。