预训练的 Transformer 模型天生具有稀疏激活的特性,即每个词元仅激活一小部分神经元。尽管稀疏激活已通过训练后方法得到探索,但其在预训练中的潜力尚未开发。在这项工作中,我们首先研究了激活特性在预训练过程中的变化情况。我们的研究表明,Transformer 模型在预训练过程的大部分时间里都表现出稀疏激活,而激活相关性随着训练的进行不断演变。利用这一观察结果,我们提出了可切换稀疏-稠密学习 (SSD)。SSD 在预训练过程中自适应地在基于混合专家 (MoE) 的稀疏训练和传统的稠密训练之间切换,利用稀疏训练的效率,并避免稀疏训练的静态激活相关性。与稠密训练相比,SSD 在相同模型规模下实现了相当的性能,并降低了预训练成本。此外,使用 SSD 训练的模型可以直接用作 MoE 模型进行稀疏推理,并与稠密模型实现相同的性能,推理速度提高高达 2 倍。代码可在 https://github.com/thunlp/moefication 获取。
语义文本嵌入是自然语言处理 (NLP) 中许多任务的基础。虽然黑盒模型能够生成高质量的嵌入,但它们缺乏可解释性,限制了它们在需要透明度的任务中的应用。最近的方法通过利用领域专家精心设计的或由大型语言模型 (LLM) 生成的问句来提高可解释性,但这些方法严重依赖于专家输入或精心设计的提示,这限制了它们的泛化能力以及在广泛任务中生成区分性问句的能力。为了解决这些挑战,我们引入了 \algo{CQG-MBQA} (对比问句生成 - 多任务二元问答),这是一个用于在不同任务中生成可解释语义文本嵌入的通用框架。我们的框架通过 \algo{CQG} 方法系统地生成高度区分性的、认知负担低的“是/否”问句,并通过 \algo{MBQA} 模型高效地回答这些问句,从而以经济高效的方式生成可解释的嵌入。我们通过广泛的实验和消融研究验证了 \algo{CQG-MBQA} 的有效性和可解释性,证明了它在保持固有可解释性的同时,提供了与许多先进的黑盒模型相当的嵌入质量。此外,\algo{CQG-MBQA} 在各种下游任务中优于其他可解释文本嵌入方法。
尽管视觉和听觉信息在现代多媒体系统中普遍存在,但触觉交互(例如,触觉和动觉交互)提供了一种独特的人类感知形式。然而,用于接触交互的多媒体技术比非接触多媒体技术发展得还不成熟,需要进一步发展。专门的触觉媒体技术需要低延迟和低比特率,才能实现触觉交互,因此需要进行触觉信息压缩。现有的基于感知模型的振动触觉信号压缩方法没有考虑多点空间分布交互点上融合触觉感知的特性。事实上,触觉感知重要性的差异不仅限于传统的频率和时间域,还包括触觉感知特有的皮肤上空间位置的差异。对于最常用的触觉信息,振动触觉纹理感知,我们开发了一个模型,基于自监督学习和时空图神经网络来预测其在多个点的感知重要性。目前的实验结果表明,该模型可以有效地预测多点触觉感知场景中各个点的感知重要性。
个性化内容推荐已成为数字媒体内容体验的关键,从视频流媒体到社交网络。然而,一些领域特异性挑战阻碍了推荐系统在新闻出版领域的应用。为了解决这些挑战,我们引入了 Ekstra Bladet 新闻推荐数据集 (EB-NeRD)。该数据集包含来自超过一百万个独特用户的数据,以及来自 Ekstra Bladet 的超过 3700 万次展示日志。它还包含超过 125,000 篇丹麦语新闻文章的集合,包括标题、摘要、正文和元数据,例如类别。EB-NeRD 作为 RecSys '24 挑战的基准数据集,展示了该数据集如何用于解决新闻出版领域设计有效且负责任的推荐系统的技术和规范挑战。该数据集可在以下地址获取:https://recsys.eb.dk。
尽管图神经网络 (GNN) 在对图结构数据进行建模方面取得了众多成功案例,但它们却臭名昭著地容易受到过度压缩的影响,在这种情况下,任务需要在距离较远的节点对之间混合信息。为了解决这个问题,之前的工作建议重新连接图结构以改善信息流。或者,大量研究致力于发现和预计算无瓶颈的图结构以改善过度压缩。在数学界,一类广受认可的无瓶颈图是扩展图,之前的工作——扩展图传播 (EGP)——建议使用一类众所周知的扩展图——$\mathrm{SL}(2,\mathbb{Z}_n)$ 特殊线性群的凯莱图——作为 GNN 的计算模板。然而,在 EGP 中,所使用的计算图被截断以与给定的输入图对齐。在这项工作中,我们表明截断对令人垂涎的扩展特性有害。相反,我们提出了 CGP,一种在完整的凯莱图结构上传播信息的方法,从而确保它没有瓶颈,以更好地缓解过度压缩。我们跨多个真实世界数据集的实证证据不仅表明 CGP 与 EGP 相比取得了显著的改进,而且它也与计算复杂度高的图重连技术相当或优于它们。
关键词生成(KPG)旨在自动生成一组短语,以代表给定文档的核心概念。KPG 中的主流范式包括 one2seq 和 one2set。近年来,将大型语言模型 (LLM) 应用于 KPG 越来越受到关注。我们的初步实验表明,单个模型在召回率和精确率方面都表现出色是一个挑战。进一步分析表明:1)one2set 范式具有高召回率的优势,但在训练期间存在监督信号分配不当的问题;2)LLM 在关键词选择方面功能强大,但现有的选择方法往往会进行冗余选择。鉴于这些观察结果,我们引入了一个生成-选择框架,将 KPG 分解为两个步骤,其中我们采用基于 one2set 的模型作为生成器来生成候选词,然后使用 LLM 作为选择器从这些候选词中选择关键词。特别是,我们对我们的生成器和选择器进行了两项重要改进:1)我们设计了一种基于最优传输的分配策略来解决上述分配不当问题;2)我们将关键词选择建模为一个序列标注任务,以缓解冗余选择。在多个基准数据集上的实验结果表明,我们的框架显著超越了最先进的模型,尤其是在缺失关键词预测方面。
尽管与传统的开放式手术相比,腹腔镜肝切除术并发症更少,且患者预后良好,但由于其在表示肝脏内部结构方面的挑战,其复杂性阻碍了其广泛应用。腹腔镜术中超声检查提供了一种高效、经济且无辐射的引导方式。我们的目标是帮助医生利用腹腔镜术中超声识别肝脏内部结构。我们提出了一种基于患者的方案,使用术前 3D 超声肝脏体积来训练深度学习模型,用于实时识别门静脉系统和分支结构。我们的个性化 AI 模型在离体猪肝脏上得到验证,与外科医生相比,其精度(0.95)和召回率(0.93)更高,为超声引导的肝切除术中精确血管识别奠定了基础。其适应性和潜在的临床影响有望推动手术干预的发展,改善患者护理。
启发式优化算法通过对解进行采样、评估其适应度以及将搜索偏向有希望的解的方向来探索搜索空间。然而,在许多情况下,这种适应度函数需要执行昂贵的计算,极大地减少了合理的评估次数。在这种情况下,代理模型作为一种极好的替代方法出现了,以缓解这些计算问题。本文探讨了代理问题的公式化,将其作为近似适应度的回归模型(表面代理模型)和一种连接分类模型的新方法(成对代理模型)。成对方法可以直接被一些算法利用,例如差分进化,在这种算法中,适应度值实际上并不需要驱动搜索,只需要知道一个解是否比另一个解更好。基于这些建模方法,我们对不同配置下的代理模型进行了多维分析:不同的机器学习算法(正则化回归、神经网络、决策树、提升方法和随机森林)、不同的代理策略(鼓励多样性或放宽预测阈值),并比较了表面代理模型和成对代理模型。文章的实验部分包括为 SOCO2011 连续优化竞赛提出的基准问题,以及最近 GECCO2021 工业挑战赛中包含的模拟问题。本文表明,当使用在线机器学习的代理模型时,整体搜索的性能不仅取决于预测模型的准确性,还取决于对正负案例的偏置类型,以及优化如何使用这些预测来决定是否执行实际的适应度函数。
事件序列,其特点是不规则的采样间隔以及混合的分类和数值特征,是现实世界中许多领域常见的數據结构,例如医疗保健、金融和用户交互日志。尽管时间数据建模技术取得了进展,但目前还没有用于评估其在事件序列上性能的标准化基准。由于评估协议的不同,不同论文之间结果的比较变得复杂,这可能会误导该领域的进展。我们引入了 EBES,这是一个具有标准化评估场景和协议的综合基准工具,重点关注具有序列级目标的回归和分类问题。我们的库通过统一的接口简化了基准测试、数据集添加和方法集成。它包括一个新颖的合成数据集,并提供预处理的真实世界数据集,包括最大的公开可用的银行数据集。我们的结果对数据集进行了深入分析,发现其中一些不适合模型比较。我们研究了建模时间和序列组件的重要性,以及模型的鲁棒性和扩展特性。这些发现突出了未来研究的潜在方向。我们的基准目标是促进可重复的研究,加快进展并增加现实世界的影响。
图结构数据是许多应用不可或缺的一部分,促使了各种图表示方法的开发。特别是图自动编码器 (GAE) 从节点嵌入中重建图结构。现有的 GAE 模型主要利用自相关来表示图结构,并专注于节点级任务,常常忽视多图场景。我们的理论分析表明,自相关通常无法准确地表示特定图特征,例如岛屿、对称结构和方向边,特别是在较小或多个图的上下文中。为了解决这些局限性,我们引入了一种交叉相关机制,它显著增强了 GAE 的表示能力。此外,我们提出了 GraphCroc,一种新的 GAE,它支持针对各种下游任务量身定制的灵活编码器架构,并通过镜像编码-解码过程确保稳健的结构重建。该模型还通过实施损失平衡策略来应对优化过程中表示偏差的挑战。理论分析和数值评估都表明,我们的方法在图结构重建方面明显优于现有的基于自相关的 GAE。