从医学影像预测未来疾病进展风险是一个挑战,因为患者存在异质性,并且存在细微或未知的影像学生物标志物。此外,用于生存分析的深度学习 (DL) 方法容易受到跨扫描仪的图像域偏移的影响。我们针对从视网膜 OCT 扫描中预测晚期干性年龄相关性黄斑变性 (dAMD) 发病的任务,解决了这些问题。我们提出了一种用于生存预测的新型 DL 方法,该方法可以从当前扫描中共同预测与转化时间成反比的风险评分,以及在时间间隔 $t$ 内转化的概率。它使用由将偏差项参数化为 $t$ 的函数生成的平行超平面族。此外,我们开发了基于受试者内图像对的无监督损失,以确保风险评分随时间推移而增加,并且未来的转化预测与使用未来访问的实际扫描进行的 AMD 阶段预测一致。这种损失允许在使用不同扫描仪获取的新未标记数据集上对训练模型进行数据高效微调。对使用不同扫描仪获取的两个大型数据集进行的广泛评估表明,在 6、12 和 24 个月的预测间隔内,数据集 1 的平均 AUROC 为 0.82,数据集 2 的平均 AUROC 为 0.83。
基于用户指定需求的条件图像合成是创建复杂视觉内容的关键组成部分。近年来,基于扩散的生成模型已成为条件图像合成的有效方法,导致文献呈指数级增长。然而,基于扩散的模型的复杂性、图像合成任务的广泛范围以及调节机制的多样性,给研究人员带来了重大挑战,让他们难以跟上快速的发展并理解该主题的核心概念。在本综述中,我们根据条件如何整合到基于扩散的模型的两个基本组件(即去噪网络和采样过程)中对现有工作进行了分类。我们特别强调了在训练、重新利用和专业化阶段各种调节方法的潜在原理、优势和潜在挑战,以构建所需的去噪网络。我们还总结了基本采样过程中的六种主流调节机制。所有讨论都围绕着流行的应用展开。最后,我们指出了未来需要解决的一些关键问题,并提出了一些可能的解决方案。我们审查过的作品列在 https://github.com/zju-pi/Awesome-Conditional-Diffusion-Models。
近年来,对比语言-图像预训练 (CLIP) 成为多模态智能领域的重要基石。然而,最近的研究表明,CLIP 编码过程中的信息损失很大,CLIP 倾向于仅从输入中捕获粗粒度的特征。这种缺陷极大地限制了单个 CLIP 模型处理富含视觉细节的图像的能力。在这项工作中,我们针对 CLIP 提出了一个简单而有效的模型无关策略,即多元化多重体升级 (DMU)。DMU 有效地微调了一系列 CLIP 模型,这些模型从密集的预训练 CLIP 检查点捕获不同的特征空间,除了前馈网络 (FFN) 之外,其他参数共享。然后,这些模型可以被转换为具有更大模型容量的 CLIP-MoE,从而在计算开销最小的前提下显著提高性能。据我们所知,多元化多重体升级是第一个将稀疏激活的 MoE 引入 CLIP 基础模型的方法。大量的实验表明,CLIP-MoE 在各种零样本检索、零样本图像分类任务以及下游多模态大型语言模型 (MLLM) 基准测试中作为视觉编码器,取得了显著的性能提升。此外,多元化多重体升级能够将任何密集的 CLIP 模型转换为 CLIP-MoE,这些模型可以无缝地以即插即用方式替换 CLIP,而无需在下游框架中进行进一步的调整。通过多元化多重体升级,我们旨在为未来开发更有效的多模态学习系统提供有价值的见解。
分类任务通常使用机器学习 (ML) 模型来处理,但这些模型在准确性和可解释性之间缺乏平衡。本文提出了一种新的方法,使用大型语言模型 (LLM) 以可解释的方式进行分类任务。与严重依赖数据清洗和特征工程的 ML 模型不同,这种方法使用 LLM 简化了流程。本文提出了一种名为“语言模型学习 (LML)”的新概念,它由一种名为“数据增强预测 (DAP)”的新方法提供支持。分类由 LLM 执行,使用类似于人类手动探索和理解数据并使用数据作为参考来决定分类的方法。在 LML 过程中,对数据集进行总结和评估,以确定最能导致每个标签分类的特征。在 DAP 过程中,系统使用数据摘要和测试数据集的一行自动生成一个查询,用于从数据集中检索相关行。LLM 使用数据摘要和相关行生成分类,即使使用复杂数据也能确保令人满意的准确性,并使用上下文感知决策。LML 和 DAP 开启了新应用的可能性。所提出的方法在提示中使用“充当可解释的机器学习模型”一词,通过允许用户审查每个预测背后的逻辑来增强预测的可解释性。在一些测试用例中,系统的准确率超过 90%,证明了系统的有效性及其在各种场景中超越传统 ML 模型的潜力。代码可在 https://github.com/Pro-GenAI/LML-DAP 获取。
表格强化学习方法无法直接在连续状态空间上运行。解决此问题的一种方法是将状态空间进行划分。良好的划分可以使学习过程中的泛化能力增强,并更有效地利用先前的经验。因此,学习过程变得更快,并且可以产生更可靠的策略。然而,划分会引入近似误差,尤其是在状态分量之间存在非线性关系的情况下,这种误差非常有害。理想的划分应该尽可能粗略,同时捕捉到给定问题状态空间的关键结构。本研究通过符号执行从环境动力学中提取划分。我们证明了符号划分可以改善相对于环境行为的状态空间覆盖率,并允许强化学习在稀疏奖励情况下表现得更好。我们评估了符号状态空间划分在精度、可扩展性、学习代理性能和学习策略状态空间覆盖率方面的表现。
本文提出了一种面向控制的系统辨识方案,用于非线性系统的有效控制设计和稳定性分析。利用神经网络来辨识一个离散时间非线性状态空间模型,以逼近非线性系统的时域输入输出行为。该网络的构建方式使得辨识的模型可以通过反馈近似线性化,从而确保控制律能够直接从学习阶段推导出。在辨识和准线性化过程之后,线性控制理论可以用来设计鲁棒控制器并研究闭环系统的稳定性。本文通过系统辨识的流行基准案例,展示了该方法的有效性和实用性。
推理时技术正成为增强大型语言模型 (LLM) 能力的有效工具。然而,由于我们对单个推理时技术的效用及其相互作用的理解有限,开发结合这些技术的系统的最佳实践仍处于发展阶段。此外,由于设计空间巨大,高效且自动地搜索模型选择、推理时技术及其组合的空间是一个挑战。为了应对这些挑战,我们引入了 Archon,这是一个模块化框架,用于选择、组合和堆叠推理时技术层,以构建针对目标基准的优化 LLM 系统。我们不是依赖于一次性调用单个 LLM,而是利用一组多样化的 LLM 和推理时技术,创建超越其各个部分之和的 LLM 系统。Archon 定义了一个可扩展的设计空间,涵盖诸如生成集成、重复采样、排序、融合、批评、验证和单元测试等技术。它将构建 LLM 系统的问题转化为超参数优化目标。考虑到可用的 LLM、推理时技术和计算预算,Archon 利用超参数搜索技术来发现针对目标基准的优化架构。我们在各种指令遵循、推理和编码基准上评估了 Archon 架构,包括 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH 和 CodeContests。Archon 架构在这些基准上优于前沿模型,例如 GPT-4o 和 Claude 3.5 Sonnet,通过使用所有可用的 LLM,平均准确率提高了 15.1 个百分点。我们将在 Github 上公开发布我们的代码和数据集:https://github.com/ScalingIntelligence/Archon。
近年来,工具增强型大型语言模型(LLMs)越来越受到关注。给定一个指令,工具增强型LLMs可以与各种外部工具进行多轮交互,并提供最终答案。然而,之前的LLMs是在过于详细的指令上进行训练的,这些指令包括API名称或参数,而实际用户不会明确提及这些API细节。这导致了训练好的LLMs与现实场景之间的差距。此外,大多数工作忽略了交互过程是否遵循指令。为了解决这些问题,我们构建了一个名为MGToolBench的训练数据集,其中包含语句和类别级别的指令,以更好地反映现实场景。此外,我们提出了ToolPlanner,一个两阶段强化学习框架,它利用路径规划和两种反馈机制来增强LLMs的任务完成和指令遵循能力。实验结果表明,与SOTA模型相比,ToolPlanner的匹配率、通过率和胜率分别提高了26.8%、20.2%和5.6%。人工评估验证了多粒度指令可以更好地与用户的使用习惯相一致。我们的数据和代码将在接受后发布。
近年来,基于视觉语言模型(VLMs)的移动 AI 智能体越来越受到关注。这些工作通常以 VLM 为基础,并使用基于指令的移动数据集对其进行微调。然而,这些 VLMs 通常是在通用领域数据上进行预训练的,这往往会导致缺乏移动领域特有的基本能力。因此,它们可能难以识别特定 UI 元素并理解 UI 内部细粒度信息。此外,目前的微调任务侧重于与给定指令最相关的元素进行交互。这些微调后的 VLMs 可能会忽略 UI 页面之间的关系,忽视元素在页面转换中的作用,并缺乏 UI 之间的理解。为了解决这些问题,我们提出了一种名为 MobileVLM 的 VLM,它包含两个额外的预训练阶段,以增强 UI 内部和 UI 之间的理解。我们定义了四个基于 UI 的预训练任务,使模型能够更好地感知细粒度元素并捕获页面转换操作。为了解决移动预训练数据不足的问题,我们从零开始构建了一个大型中文移动数据集 Mobile3M,其中包含 300 万个 UI 页面和真实世界的转换操作,形成了一个有向图结构。实验结果表明,MobileVLM 在我们的测试集和公共移动基准测试中表现出色,优于现有的 VLMs。
近年来,大型语言模型(LLM)得到了广泛应用,引发了对其安全性的担忧。传统的越狱攻击通常依赖于模型内部信息,或者在探索受害者模型的不安全行为时存在局限性,限制了其通用性。本文介绍了一种名为 PathSeeker 的新型黑盒越狱方法,其灵感来自于老鼠逃离迷宫的游戏。我们认为每个 LLM 都有其独特的“安全迷宫”,攻击者试图通过学习接收到的反馈和积累的经验来找到出口,从而破坏目标 LLM 的安全防御。我们的方法利用多智能体强化学习,其中较小的模型协同工作以指导主 LLM 执行变异操作以实现攻击目标。通过根据模型的反馈逐步修改输入,我们的系统诱发了更丰富、更有害的响应。在我们手动尝试执行越狱攻击的过程中,我们发现目标模型响应的词汇量逐渐变得更丰富,最终产生了有害的响应。基于此观察,我们还引入了一种奖励机制,利用 LLM 响应中词汇丰富度的扩展来削弱安全约束。我们的方法在 13 个商业和开源 LLM 上进行测试时,优于五种最先进的攻击技术,实现了较高的攻击成功率,尤其是在安全对齐性强的商业模型(如 GPT-4o-mini、Claude-3.5 和 GLM-4-air)上。本研究旨在提高对 LLM 安全漏洞的理解,我们希望这项研究能够为开发更强大的防御措施做出贡献。