肝脏肿瘤消融手术需要将针状穿刺器准确地放置在肿瘤中心。与计算机断层扫描(CT)相比,超声(US)具有成本更低、实时性更强的优势,可以用于引导穿刺器。然而,在一些患者中,肝脏肿瘤在超声检查中可能不明显,肿瘤的模拟物可能会使病灶识别变得困难。图像配准技术可以帮助解释解剖结构细节和识别肿瘤,但其临床应用受到对齐精度和运行时性能之间权衡的限制,特别是在补偿患者呼吸或运动引起的肝脏运动时。因此,我们提出了一种二维-三维超声配准方法,以实现术中对齐,从而减轻肝脏运动引起的误差。具体来说,我们的方法可以关联不平衡的二维和三维超声图像特征,并使用连续的六维旋转表示来增强模型的训练稳定性。数据集被分为 2388 对、196 对和 193 对图像,分别用于训练、验证和测试。我们的方法实现了 2.28 毫米±1.81 毫米的平均欧几里得距离误差和 2.99 度±1.95 度的平均测地角误差,每对二维-三维超声图像的运行时间为 0.22 秒。这些结果表明,我们的方法可以实现精确的对齐和临床上可接受的运行时间,表明其具有临床转化潜力。
我们提出了 ColaCare,一个通过大型语言模型 (LLM) 驱动的多智能体协作来增强电子健康记录 (EHR) 建模的框架。我们的方法将特定领域的专家模型与 LLM 无缝集成,以弥合结构化 EHR 数据和基于文本的推理之间的差距。受临床咨询的启发,ColaCare 采用两种类型的智能体:DoctorAgent 和 MetaAgent,它们协作分析患者数据。专家模型处理并从数值 EHR 数据中生成预测,而 LLM 智能体在协作咨询框架内生成推理参考和决策报告。我们还在检索增强生成 (RAG) 模块中整合了默克诊疗手册 (MSD) 医疗指南,以提供权威的证据支持。在四个不同的 EHR 数据集上进行的大量实验表明,ColaCare 在死亡率预测任务中的性能优于其他方法,突出了其革新临床决策支持系统和推动个性化精准医疗的潜力。代码、完整的提示模板、更多案例研究等可在以下匿名链接公开获取:https://colacare.netlify.app。
量子联邦学习在隐私图像分类方面取得了进展,但客户端模型缺乏个性化可能导致量子联邦学习效果不佳。针对图像分布不均衡情况,提出了一种个性化量子联邦学习算法,以增强客户端模型的个性化。首先,构建了一个个性化量子联邦学习模型,其中为客户端模型设置了一个个性化层,以维护个性化参数。其次,引入了一种个性化量子联邦学习算法,以确保客户端和服务器之间交换的信息安全。第三,将个性化联邦学习应用于FashionMNIST数据集上的图像分类,实验结果表明,即使在本地训练样本不均衡的情况下,个性化量子联邦学习算法也能获得性能优异的全局和局部模型。在8个客户端和分布参数为100的情况下,服务器的准确率为100%,比非个性化模型高出7%。在2个客户端和分布参数为1的情况下,平均客户端准确率比非个性化模型高出2.9%。与之前的量子联邦学习算法相比,所提出的个性化量子联邦学习算法无需额外的本地训练,同时还能保护模型和数据隐私。它可能促进量子技术的更广泛采用和应用,并为更安全、可扩展和高效的量子分布式机器学习解决方案铺平道路。
密集文档嵌入是神经检索的核心。主流方法是通过直接在单个文档上运行编码器来训练和构建嵌入。在这项工作中,我们认为这些嵌入虽然有效,但对于检索的目标用例来说隐式地是脱离上下文的,而一个上下文化的文档嵌入应该同时考虑文档和上下文中的相邻文档——类似于上下文化的词嵌入。我们提出了两种互补的上下文化文档嵌入方法:第一,一种替代的对比学习目标,它将文档邻居明确地纳入批内上下文损失;第二,一种新的上下文架构,它将邻居文档信息明确地编码到编码的表示中。结果表明,这两种方法在几种情况下都比双编码器取得了更好的性能,尤其是在域外的情况下差异明显。我们在 MTEB 基准测试中取得了最先进的结果,没有硬负样本挖掘、分数蒸馏、数据集特定指令、GPU 内示例共享或极大的批次大小。我们的方法可以应用于提高任何对比学习数据集和任何双编码器的性能。
数据增强是深度学习中的一个基石技术,对于提高模型性能至关重要,尤其是在标签数据稀缺的情况下。虽然传统技术有效,但它们依赖于手工方法,限制了其在不同数据类型和任务中的适用性。尽管现代可学习增强方法提供了更高的适应性,但它们计算成本高昂,并且难以融入流行的增强工作流程。在这项工作中,我们提出了一种新颖且高效的数据增强方法,有效地弥合了现有增强策略与新兴数据集和学习任务之间的差距。我们引入了 SAFLEX(通过特征标签外推的自适应增强),它使用专门设计的有效双层优化算法,学习由任何给定上游增强管道提供的增强样本的样本权重和软标签。值得注意的是,SAFLEX 以微不足道的计算成本有效地减少了上游增强管道的噪声和标签错误。作为一种多功能模块,SAFLEX 在各种数据集(包括自然图像、医学图像和表格数据)中表现出色,展示了其在少样本学习和分布外泛化方面的强大能力。SAFLEX 可以无缝地与常见的增强策略(如 RandAug、CutMix)以及来自大型预训练生成模型(如稳定扩散)的增强策略集成,并且还与 CLIP 的微调等框架兼容。我们的研究结果突出了将现有增强管道适应新数据类型和任务的潜力,预示着向更具适应性和弹性的训练框架迈进。
图像质量评估 (IQA) 是几乎所有计算机视觉领域模型性能的黄金标准。然而,它仍然存在着泛化能力差和训练成本高的问题。为了解决这些问题,我们提出了 Dog-IQA,一种标准引导的零样本混合粒度 IQA 方法,该方法无需训练,并利用多模态大型语言模型 (MLLM) 的出色先验知识。为了获得准确的 IQA 分数,即与人类一致的分数,我们设计了一个基于 MLLM 的推理管道,模仿人类专家。具体来说,Dog-IQA 应用了两种技术。首先,Dog-IQA 利用 MLLM 的行为模式,并最大限度地减少主观因素的影响,以特定标准客观地进行评分。其次,Dog-IQA 以局部语义对象和整个图像作为输入,并聚合它们的得分,利用局部和全局信息。我们提出的 Dog-IQA 在跨数据集场景中,与无训练方法相比取得了最先进 (SOTA) 的性能,与基于训练的方法相比也具有竞争力。我们的代码和模型将在 https://github.com/Kai-Liu001/Dog-IQA 上提供。
近年来,对话系统展现出极高的可用性。然而,它们仍无法完全反映现实世界中的对话场景。现有的对话系统无法模拟多个参与者之间动态、连续、长期交互的复杂性。造成这一缺陷的原因是,在构建对话系统时,很少考虑现实世界对话的两个关键方面:跨越长期对话的深层交互以及涉及多个参与者的广泛对话网络。为了将这两个方面结合起来,我们引入了混合会话对话系统,旨在构建在多会话对话设置中与多个参与者进行的对话。我们提出了一个名为 MiSC 的新数据集来实现该系统。MiSC 的对话片段包含 6 个连续的会话,每个片段中出现 4 个说话者(一个主要说话者和三个对话伙伴)。此外,我们还提出了一种新的对话模型,该模型具有新颖的记忆管理机制,称为以自我为中心的记忆增强混合会话对话代理(EMMA)。EMMA 从主要说话者的角度收集并保留与对话伙伴进行对话时的记忆,从而在后续交互中实现无缝衔接。广泛的人工评估验证了 MiSC 中的对话展现出无缝的对话流程,即使对话伙伴在每个会话中发生变化。使用 MiSC 训练的 EMMA 也经过评估,证明其在整个对话过程中始终保持较高的记忆能力,且不会出现矛盾。
随着大型语言模型(LLM)日益融入我们的日常生活,其欺骗性行为所带来的潜在危害,使得忠实解读其决策过程变得至关重要。虽然传统的探测方法已展现出一定效果,但它们仍然最适合于范围狭窄的任务,而更全面的解释仍然是必要的。为此,我们研究了元模型——一种使用“元模型”的架构,该模型从“输入模型”获取激活,并回答有关输入模型行为的自然语言问题。我们通过在选定的任务类型上训练元模型并评估其在欺骗场景中的分布外性能来评估其泛化能力。我们的研究结果表明,元模型可以很好地泛化到分布外任务,并指出了该领域未来研究的机会。
指令微调——使用指令-响应对进行监督微调——是将预训练的大语言模型(LLM)转变为有用且安全的聊天助手的基础步骤。我们的假设是,鉴于预训练LLM固有的能力,建立一个充分的输出空间可以实现这种转变。为了验证这一点,我们提出了响应微调(RT),它消除了指令微调中的指令条件步骤,而只关注响应空间监督。我们的实验表明,仅使用响应训练的RT模型能够有效地响应各种指令,并表现出与其指令微调对应模型相当的有用性。此外,我们观察到,控制训练响应分布可以显著提高用户偏好或引发目标行为,例如拒绝对不安全查询的协助。我们的发现阐明了在对齐中建立充分输出空间的作用,突出了预训练LLM广泛固有能力的潜力。
通用身份或旅行证件图像和视频验证系统尚未达到足够好的性能,无法被视为已解决的问题。影响其性能的因素包括低分辨率图像和视频,以及缺乏足够的训练数据。当处理未知类型的身份或旅行证件时,这项任务尤其具有挑战性。本文通过提出一种基于循环神经网络的模型来解决这个问题,该模型能够在少量样本的情况下检测伪造文件。循环神经网络架构使模型对文档分辨率变化具有鲁棒性。此外,少样本方法使模型即使对于未知类型的文档也能表现良好。在 SIDTD 和 Findit 数据集上的初步结果表明,该模型在这项任务中取得了良好的性能。