癌症发生是一个多变的现象,肿瘤出现在不同的部位,并呈现出复杂多样的形状。在研究和临床实践的关键交汇点,它需要精确灵活的评估。然而,现有的生物标志物,如 RECIST 1.1 的长轴和短轴测量,无法捕捉这种复杂性,只能提供肿瘤负荷的近似估计,并简单地描述一个更复杂的过程。此外,现有的监督式人工智能模型在解决肿瘤表现形式的差异性方面面临挑战,限制了它们的临床应用。这些局限性源于注释的稀缺性和模型对狭义定义任务的关注。
为了解决这些挑战,我们开发了 ONCOPILOT,这是一个交互式放射学基础模型,它在约 7,500 次 CT 扫描中接受了训练,涵盖了全身,包括正常解剖结构和各种肿瘤病例。ONCOPILOT 使用点选和边界框等视觉提示执行 3D 肿瘤分割,优于最先进的模型(例如 nnUnet),并在 RECIST 1.1 测量中达到放射科医师级别的准确性。该基础模型的主要优势在于,它能够超越最先进的性能,同时将放射科医师纳入循环,这是以前模型无法实现的能力。当放射科医师交互式地细化分割时,准确性会进一步提高。ONCOPILOT 还加速了测量过程并减少了读者间差异,从而促进了体积分析,并为更深入的见解解锁了新的生物标志物。
预计这种人工智能助手将提高 RECIST 1.1 测量的精度,释放体积生物标志物的潜力,改善患者分层和临床护理,同时无缝地融入放射学工作流程。
大型语言模型(LLM)凭借其处理各种任务的出色能力,在解决推理和规划任务方面取得了重大进展,其中将复杂问题分解成可执行工作流是此过程中的关键步骤。现有的工作流评估框架要么只关注整体性能,要么存在局限性,例如场景覆盖范围有限、工作流结构过于简单以及评估标准宽松。为此,我们引入了 WorFBench,这是一个统一的工作流生成基准,具有多方面场景和复杂的图工作流结构。此外,我们还提出了 WorFEval,这是一个系统化的评估协议,利用子序列和子图匹配算法来准确量化 LLM 代理的工作流生成能力。通过对不同类型 LLM 的全面评估,我们发现 LLM 代理的序列规划能力和图规划能力之间存在明显差距,即使是 GPT-4 也表现出大约 15% 的差距。我们还训练了两个开源模型,并在保留的任务上评估了它们的泛化能力。此外,我们观察到生成的工作流可以增强下游任务,使它们能够在推理过程中以更短的时间实现更好的性能。代码和数据集将在 https://github.com/zjunlp/WorFBench 上提供。
双臂操作在机器人学中至关重要,但由于协调两只机械臂的固有复杂性(导致多模态动作分布)以及训练数据的稀缺性,开发基础模型极具挑战性。本文提出了机器人扩散Transformer(RDT),一种用于双臂操作的开创性扩散基础模型。RDT基于扩散模型有效地表示多模态,并创新性地设计了可扩展的Transformer来处理多模态输入的异质性,并捕捉机器人数据的非线性性和高频特性。为了解决数据稀缺性,我们进一步引入了物理可解释的统一动作空间,该空间可以统一各种机器人的动作表示,同时保留原始动作的物理意义,从而促进可转移物理知识的学习。通过这些设计,我们成功地在迄今为止最大的多机器人数据集集合上对RDT进行了预训练,并将其扩展到12亿个参数,这是用于机器人操作的最大扩散型基础模型。最后,我们在一个包含超过6000个情节的自建多任务双臂数据集上对RDT进行了微调,以完善其操作能力。在真实机器人上的实验表明,RDT显著优于现有方法。它表现出对看不见的物体和场景的零样本泛化能力,理解并遵循语言指令,只需1~5次演示即可学习新技能,并有效地处理复杂的、灵巧的任务。有关代码和视频,请参阅https://rdt-robotics.github.io/rdt-robotics/。
许多现实世界数据集的结构本质上是分层的,因此对这些层次结构进行建模是无监督和监督机器学习中的一个关键目标。最近,人们提出了使用深度架构进行层次聚类的全新方法。在这项工作中,我们对这一研究方向进行了批判性的分析,并表明许多方法在应用于现实数据集时存在重大局限性,部分原因是其计算复杂度高。特别是,我们表明,在预训练的非层次聚类模型之上实现的轻量级程序优于专门为层次聚类而设计的模型。我们提出的方法计算效率高,适用于任何输出 logits 的预训练聚类模型,无需任何微调。为了突出我们发现的普遍性,我们说明了我们的方法如何在监督环境中应用,从预训练的 ImageNet 分类器中恢复有意义的层次结构。
近年来,基于人工神经网络的行人属性识别 (PAR) 受到广泛研究,尽管取得了许多进展,但其能耗仍然很高。为了解决这个问题,本文提出了一种基于脉冲神经网络 (SNN) 的框架,用于实现节能的属性识别。具体来说,我们首先采用脉冲标记器模块将给定的行人图像转换为脉冲特征表示。然后,将输出输入到脉冲 Transformer 主干网络中,以实现节能的特征提取。我们将增强后的脉冲特征输入到一组前馈网络中,用于行人属性识别。除了广泛使用的二元交叉熵损失函数外,我们还利用从人工神经网络到脉冲 Transformer 网络的知识蒸馏,以实现更准确的属性识别。在三个广泛使用的 PAR 基准数据集上进行的大量实验充分验证了我们提出的 SNN-PAR 框架的有效性。本文的源代码已发布在 \url{https://github.com/Event-AHU/OpenPAR} 上。
我们研究了使用预训练的文本到图像 (T2I) 潜在扩散模型生成少数样本。在 T2I 生成中,少数实例可以定义为存在于文本条件数据分布的低密度区域的实例。它们对于现代 T2I 生成器的各种应用非常有价值,例如数据增强和创意 AI。不幸的是,现有的预训练 T2I 扩散模型主要关注高密度区域,这在很大程度上是由于引导采样器(如 CFG)的影响,这些采样器对于生成高质量的生成至关重要。为了解决这个问题,我们提出了一种新的框架来对抗 T2I 扩散模型的高密度关注。具体来说,我们首先开发了一个在线提示优化框架,该框架可以在推理过程中鼓励期望属性的出现,同时保留用户提供的提示的语义内容。随后,我们将这种通用提示优化器定制成一个专门的求解器,通过结合精心设计的似然目标来促进少数特征的生成。我们在各种类型的 T2I 模型上进行的综合实验表明,与现有采样器相比,我们的方法显着增强了生成高质量少数实例的能力。
深度强化学习 (RL) 已成为在复杂环境中创建智能体的领先方法。基于模型的方法,即具有预测环境动态的世界模型的 RL 方法,是提高数据效率最有希望的方向之一,为弥合研究与现实世界部署之间的差距迈出了关键一步。特别是,世界模型通过想象学习来提高样本效率,这涉及以自监督的方式训练环境的生成序列模型。最近,掩码生成建模已成为对建模和生成标记序列更有效、更优的归纳偏差。基于高效随机 Transformer 基世界模型 (STORM) 架构,我们用掩码生成先验 (例如,MaskGIT 先验) 替换传统的 MLP 先验,并引入 GIT-STORM。我们在两个下游任务上评估我们的模型:强化学习和视频预测。GIT-STORM 在 Atari 100k 基准上的 RL 任务中表现出显著的性能提升。此外,我们首次将基于 Transformer 的世界模型应用于连续动作环境,填补了先前研究中的一个重大空白。为了实现这一点,我们采用了一个状态混合函数,该函数将潜在状态表示与动作集成在一起,使我们的模型能够处理连续控制任务。我们通过对 DeepMind Control Suite 的定性和定量分析验证了这种方法,展示了基于 Transformer 的世界模型在这一新领域中的有效性。我们的结果突出了 MaskGIT 动态先验的多功能性和有效性,为更准确的世界模型和有效的 RL 策略铺平了道路。
停车位检测是自动泊车系统中的一项重要技术。一般来说,停车位检测的分类问题包括两个任务:一是判断局部候选区域是否为停车位的连接点,二是识别检测到的连接点的形状。这两个分类任务都容易面临对多数类别的偏向学习,从而降低分类性能。然而,停车位检测中一直忽略了数据不平衡问题。我们提出了第一个用于停车位检测的监督对比学习框架,即用于改进停车位检测的局部平衡对比学习 (LaB-CL)。提出的 LaB-CL 框架使用两种主要方法。首先,我们建议包含类别原型,以从局部角度考虑每个小批次中所有类别的表示。其次,我们提出了一种新的难负样本采样方案,该方案选择具有高预测误差的局部表示。基准数据集上的实验表明,提出的 LaB-CL 框架可以优于现有的停车位检测方法。
近年来,随着大型语言模型 (LLM) 技术的成熟和高质量编程代码数据集的出现,研究人员对自动解决程序合成挑战越来越有信心。然而,由于大多数 LLM 的训练样本未经筛选,LLM 的性能不可避免地可能与现实场景不符,导致存在社会偏见。为了评估和量化代码 LLM 中的性别偏见,我们提出了一个名为 CodeGenBias(代码生成中的性别偏见)的数据集,并基于相关职业的实际性别分布,提出了一个名为 FB-Score(事实偏见得分)的评估指标。借助 CodeGenBias 和 FB-Score,我们评估和分析了八种主流代码 LLM 中的性别偏见。先前的工作表明,在知识编辑方面表现良好的模型编辑方法有可能减轻 LLM 中的社会偏见。因此,我们开发了一种名为 MG-Editing(多粒度模型编辑)的模型编辑方法,它包括定位和编辑阶段。我们的模型编辑方法 MG-Editing 可以应用于模型参数粒度的五个不同级别:全参数级别、层级、模块级、行级和神经元级。大量实验不仅证明了我们的 MG-Editing 可以有效地减轻代码 LLM 中的性别偏见,同时保持其一般的代码生成能力,而且还展示了其出色的泛化能力。同时,实验结果表明,考虑到模型的性别偏见及其一般的代码生成能力,MG-Editing 在应用于行级和神经元级粒度时最为有效。
大型语言模型 (LLM) 已取代传统方法,在众多自然语言处理任务中占据主导地位。然而,在命名实体识别 (NER) 任务中,现有的基于 LLM 的方法...