大型基础模型通过海量数据训练来识别复杂模式,并可运用最少的计算资源适应各种下游任务。本文开发了一个名为HistoEncoder的前列腺癌数字病理学基础模型,其预训练数据包含4800万张前列腺组织切片图像。我们证明,HistoEncoder从具有相似组织学模式的切片图像中提取的特征在特征空间中彼此紧密映射。HistoEncoder优于使用自然图像进行预训练的模型,即使无需微调或训练数据减少1000倍也是如此。我们描述了两个利用HistoEncoder能力的用例,这些用例通过少量数据和计算资源对模型进行微调。首先,我们展示了HistoEncoder如何用于高精度地自动标注大规模数据集。其次,我们将组学信息与常用的临床列线图相结合,显著提高了前列腺癌特异性死亡生存模型的准确性。像HistoEncoder这样的基础模型可以让资源有限的组织机构构建有效的临床软件工具,而无需庞大的数据集或大量的计算资源。
链接预测对于理解复杂网络至关重要,但传统的图神经网络 (GNN) 往往依赖于随机负采样,导致性能欠佳。本文介绍了一种新颖的模糊图注意力网络 (FGAT) 方法,该方法集成了模糊粗糙集用于动态负采样和增强的节点特征聚合。模糊负采样 (FNS) 基于模糊相似性系统地选择高质量的负边,提高了训练效率。FGAT 层结合了模糊粗糙集原理,能够生成鲁棒且具有区分性的节点表示。在两个研究合作网络上的实验表明,FGAT 的链接预测精度优于最先进的基线方法,这得益于利用模糊粗糙集进行有效的负采样和节点特征学习。
大型语言模型(LLM)的自训练方法通过在模型自行生成的推理基础上训练模型来提高其推理能力。以往的方法将产生正确答案的推理标记为适合训练。然而,单一指标存在误判推理质量的风险,导致模型学习有缺陷的推理模式。为了解决这个问题,我们提出了CREST(基于一致性的自训练推理评估)框架,该框架通过后续问题进一步评估每个推理,并利用此评估来指导其训练。具体来说,我们引入了两种方法:(1)过滤掉在后续问题中经常导致错误答案的推理;(2)基于原始问题和后续问题的推理评估结果的混合偏好进行偏好学习。在三个使用开放LLM的问答数据集上的实验表明,与之前的自训练方法相比,CREST不仅提高了推理的逻辑稳健性和正确性,还提高了推理能力。
基于微分物理的系统辨识框架:用于机器人操纵体积弹塑性可变形材料
或
一种新型基于微分物理的系统辨识框架,用于机器人操纵体积弹塑性可变形材料,该框架能够利用简单的操纵动作和不完整的3D点云来推断材料和环境的物理参数,从而使仿真与现实世界相符。
大型生成模型能力的增强及其日益广泛的部署引发了对其可靠性、安全性及潜在误用的担忧。为了解决这些问题,最近的研究提出通过引导模型激活来控制模型生成,从而有效地诱导或阻止生成的输出中概念或行为的出现。本文介绍了激活传输 (AcT) ,这是一种由最优传输理论引导的激活引导框架,它概括了许多之前的激活引导工作。AcT 与模态无关,并以可忽略的计算开销提供对模型行为的细粒度控制,同时最大程度地减少对模型能力的影响。我们通过解决大型语言模型 (LLM) 和文本到图像扩散模型 (T2I) 中的关键挑战,通过实验展示了我们方法的有效性和多功能性。对于 LLM,我们证明 AcT 可以有效地减轻毒性,诱导任意概念,并提高其真实性。在 T2I 中,我们展示了 AcT 如何实现细粒度的风格控制和概念否定。
跨域小样本分割 (CD-FSS) 首先在大型源域数据集上预训练模型,然后将模型迁移到数据稀缺的目标域数据集进行像素级分割。源域和目标域之间显著的域差异导致现有小样本分割 (FSS) 方法在跨域场景中的性能急剧下降。在这项工作中,我们发现了一个有趣的现象:简单地过滤目标域的不同频率分量可以显著提高性能,有时甚至高达 14% 的 mIoU。然后,我们深入研究了这一现象,并发现这种改进源于特征图中通道间相关性的降低,这有利于 CD-FSS,增强了其对域差异的鲁棒性,并扩大了分割的激活区域。基于此,我们提出了一种轻量级的频率掩码器,它通过幅度-相位掩码器 (APM) 模块和自适应通道相位注意力 (ACPA) 模块进一步降低通道相关性。值得注意的是,APM 只引入了 0.01% 的额外参数,但平均性能提高了 10% 以上,而 ACPA 只引入了 2.5% 的参数,但进一步将性能提高了 1.5% 以上,这显著超过了最先进的 CD-FSS 方法。
序列建模在捕获不同任务中的长程依赖关系方面面临挑战。最近的线性模型和基于Transformer的预测器在时间序列预测方面表现出优越的性能。然而,它们固有的局限性在于无法有效地处理时间序列数据中的长程依赖关系,这主要是由于使用固定大小的输入进行预测。此外,它们通常通过将连续的训练样本打乱成小批量来牺牲样本之间重要的时序相关性。为了克服这些限制,我们引入了一种快速有效的谱注意力机制,该机制保留了样本之间的时序相关性,并促进了长程信息的处理,同时保持了基础模型结构。谱注意力通过低通滤波器保留长周期趋势,并促进样本间的梯度流动。谱注意力可以无缝地集成到大多数序列模型中,允许具有固定大小回溯窗口的模型捕获数千步以上长程依赖关系。通过对11个真实世界时间序列数据集使用7个最新的预测模型进行大量实验,我们一致地证明了我们的谱注意力机制的有效性,取得了最先进的结果。
深度学习的最新进展让人们关注到创建能够在许多任务上超越人类的先进通用人工智能系统的可能性。然而,如果这些系统追求非预期目标,则可能造成灾难性后果。人工智能系统追求非预期目标的关键前提是,它们首先是否会以连贯且目标导向的方式运行,即优化某个未知的目标;目前存在大量研究试图评估系统的这种行为。然而,我们目前拥有的关于目标导向性的最严格定义难以在现实环境中计算。基于此前的文献,我们探讨了强化学习 (RL) 环境中的策略目标导向性。在我们的研究结果中,我们提出了一系列不同的策略目标导向性定义,这些定义分析了该策略是否可以很好地建模为许多(稀疏)奖励函数的近似最优策略。我们将这个初步的目标导向性定义付诸实践,并在玩具马尔可夫决策过程 (MDP) 环境中对其进行了测试。此外,我们还探讨了如何在前沿大型语言模型 (LLM) 中衡量目标导向性。我们的贡献在于,我们提出了一个更简单、更容易计算的目标导向性定义,以便解决人工智能系统是否可能追求危险目标的问题。根据我们的研究结果,我们建议进一步探索如何衡量连贯性和目标导向性。
准确监测幼儿屏幕使用时间对于研究与屏幕使用相关的现象(如儿童肥胖、体力活动和社交互动)至关重要。大多数现有研究依赖于自我报告或笨重的可穿戴传感器进行手动测量,因此在捕捉定量屏幕使用数据方面效率和准确性不足。在这项工作中,我们开发了一个新颖的传感器信息学框架,该框架利用来自可穿戴传感器的以自我为中心的图像(称为屏幕时间追踪器,STT)和视觉语言模型 (VLM)。特别是,我们设计了一个多视角 VLM,它可以从以自我为中心的图像序列中获取多个视角,并动态地解释屏幕使用情况。我们使用儿童自由活动数据集验证了我们的方法,证明了该方法比现有的纯视觉语言模型和目标检测模型有了显著改进。结果证实了这种监测方法的潜力,它可以优化在儿童自然环境中对屏幕使用时间的行为研究。
低秩适应(LoRA)通过冻结原始权重并仅训练低秩矩阵,取得了显著的训练成果,已成为大型语言模型 (LLM) 最主要的微调方法。为了追求更接近全参数训练的性能,一系列 LoRA 变体应运而生,例如 LoRA+、PISSA、Olora 和 LoRA-GA。本文介绍了一种与 LoRA 不同的新型高效参数模型微调 (PEFT) 技术,称为块仿射适应 (Bone)。通过将原始权重划分为多个共享单个权重更新矩阵的子空间,Bone 简化了训练过程,只需将可训练矩阵初始化为零,避免了像某些 LoRA 变体那样需要复杂的初始化。与 LoRA 相比,Bone 显著降低了内存使用率并实现了更快的计算速度。对 NLU 和 NLG 任务的评估表明,Bone 显著优于 LoRA 及其变体。受 Pissa 的启发,我们进一步提出了“权重引导”理论,以更好地利用原始权重信息。通过将“权重引导”与 Bone 集成,我们开发了一种新的结构,称为块仿射变换 (Bat),消融实验也证实了“权重引导”的有效性。