人工智能驱动的模型在自动化胸部X光影像学报告生成方面展现出巨大的潜力。然而,目前缺乏客观的性能评估标准。为此,我们推出了ReXrank (https://rexrank.ai),一个用于评估人工智能驱动的影像学报告生成的公开排行榜和挑战赛。我们的框架包含ReXGradient,一个包含10000例研究的最大的测试数据集,以及三个公共数据集(MIMIC-CXR、IU-Xray、CheXpert Plus)用于报告生成的评估。ReXrank采用了8个评估指标,并分别评估了仅能生成“发现”部分的模型和同时生成“发现”和“印象”部分的模型。通过提供这个标准化的评估框架,ReXrank能够对模型性能进行有意义的比较,并提供对其在不同临床环境中鲁棒性的重要见解。超越目前对胸部X光的关注,ReXrank的框架为全面评估全谱医学影像的自动化报告奠定了基础。
近期文本到视频(T2V)扩散模型在各个领域展现了令人印象深刻的生成能力。然而,这些模型生成的视频往往与文本提示存在错位,尤其是在提示描述包含多个对象和属性的复杂场景时。为了解决这个问题,我们引入了VideoRepair,这是一个新颖的、与模型无关、无需训练的视频细化框架,它可以自动识别细粒度的文本-视频错位并生成明确的时空和文本反馈,使T2V扩散模型能够执行有针对性的局部细化。VideoRepair包含四个阶段:(1)视频评估:我们通过生成细粒度的评估问题并使用大型语言模型(MLLM)回答这些问题来检测错位。(2)细化规划:我们识别准确生成的物体,然后创建局部提示来细化视频中的其他区域。(3)区域分解:我们使用组合接地模块分割正确生成的区域。(4)局部细化:我们在保留正确区域的同时,通过调整错位区域来重新生成视频。在两个流行的视频生成基准测试(EvalCrafter和T2V-CompBench)上,VideoRepair在各种文本-视频对齐指标上显著优于最新的基线。我们对VideoRepair的组件和定性示例进行了全面的分析。
前沿人工智能安全策略强调了人工智能主体自动化人工智能研发(R&D)作为一项重要能力的预测。然而,目前对人工智能研发能力的评估很少,而且没有高度现实且能与人类表现直接比较的评估。我们介绍了RE-Bench(研究工程基准,v1),它包含7个具有挑战性的、开放式机器学习研究工程环境以及来自61位不同人类专家的71次8小时尝试的数据。我们证实,我们的专家在8小时内在这些环境中取得了进展,82%的专家尝试获得了非零分数,24%的专家尝试达到或超过了我们强大的参考解决方案。我们通过最佳k值,在不同的时间预算和代理设计下,将人类与几个公共前沿模型进行了比较,发现当两者都获得每个环境2小时的总时间预算时,最佳人工智能代理的分数比人类专家高4倍。然而,人类目前在增加时间预算方面显示出更好的回报,在获得8小时预算时略微超过顶级人工智能代理的分数,并且在两者都获得32小时总时间(跨不同尝试)时,其得分是顶级人工智能代理的两倍。定性地,我们发现现代人工智能代理在许多机器学习主题方面拥有显著的专业知识——例如,一个代理编写了一个比我们任何人类专家都快得多的自定义Triton内核——并且可以比人类快十倍地生成和测试解决方案,成本也低得多。我们开源了评估环境、人类专家数据、分析代码和代理轨迹,以促进未来的研究。
随着文本到图像模型越来越强大和复杂,其不断增长的规模成为广泛应用的重大障碍,尤其是在资源受限的设备上。本文对Stable Diffusion 2的训练后剪枝进行了开创性研究,解决了文本到图像领域模型压缩的关键需求。我们的研究解决了先前未探索的多模态生成模型的剪枝技术,并特别检查了剪枝对文本组件和图像生成组件分别的影响。我们对以不同稀疏度剪枝模型或模型的单个组件进行了全面的比较。我们的结果产生了以前未记录的发现。例如,与语言模型剪枝的既定趋势相反,我们发现简单的幅度剪枝在文本到图像环境中优于更先进的技术。此外,我们的结果表明,Stable Diffusion 2可以剪枝到38.5%的稀疏度,而质量损失最小,从而显著减小了模型大小。我们提出了一种最佳的剪枝配置,将文本编码器剪枝到47.5%,将扩散生成器剪枝到35%。这种配置在保持图像生成质量的同时,大大降低了计算需求。此外,我们的工作揭示了关于文本到图像模型中信息编码的有趣问题:我们观察到,超过一定阈值的剪枝会导致性能突然下降(图像无法读取),这表明特定的权重编码了关键的语义信息。这一发现为未来在模型压缩、互操作性和文本到图像模型中的偏差识别方面研究开辟了新的途径。通过提供对文本到图像模型剪枝行为的关键见解,我们的研究为开发更高效、更易访问的AI驱动图像生成系统奠定了基础。
近年来,视频动作理解取得了令人瞩目的进展。数据集规模的扩大、数据多样性的增加以及计算能力的提升,推动了性能的飞跃和任务的多样化发展。当前的系统能够提供视频场景的粗粒度和细粒度描述,提取与查询对应的片段,合成视频中未观察到的部分,并预测上下文信息。这篇综述全面回顾了各种任务中单模态和多模态动作理解的进展。我们关注普遍存在的挑战,概述了广泛采用的数据集,并对具有开创性的工作进行了综述,重点关注最新的进展。我们大致将时间范围分为三类:(1)对完整观察到的动作的识别任务;(2)对正在进行的部分观察到的动作的预测任务;(3)对后续未观察到的动作的预测任务。这种划分使我们能够识别具体的动作建模和视频表示方面的挑战。最后,我们概述了未来解决当前不足的方向。
大型语言模型 (LLM) 代理的应用日益复杂多样,对可解析为代码、结构化函数调用和具身代理命令的结构化输出的需求也日益增长。这些发展对 LLM 推理中的结构化生成提出了重大需求。上下文无关文法是一种灵活的方法,可以通过约束解码来实现结构化生成。然而,上下文无关文法的执行需要在运行时遍历词汇表中所有标记的多个堆栈状态,这给结构化生成带来了不可忽略的开销。本文提出了一种用于大型语言模型的灵活高效的结构生成引擎 XGrammar。XGrammar 通过将词汇表划分为可预先检查的上下文无关标记和需要在运行时解释的上下文相关标记来加速上下文无关文法的执行。我们进一步构建转换以扩展语法上下文并减少上下文无关标记的数量。此外,我们构建了一个高效的持久堆栈来加速上下文相关标记的检查。最后,我们将语法引擎与 LLM 推理引擎共同设计,以使语法计算与 GPU 执行重叠。评估结果表明,XGrammar 与现有解决方案相比,速度最多可提升 100 倍。结合 LLM 推理引擎,它可以在端到端低 LLM 服务中实现近乎零开销的结构化生成。
本文介绍了OminiControl,一个高度通用且参数高效的框架,它将图像条件整合到预训练的扩散Transformer (DiT) 模型中。OminiControl的核心是参数复用机制,使DiT能够利用自身强大的骨干网络对图像条件进行编码,并利用其灵活的多模态注意力处理器进行处理。与依赖于具有复杂架构的额外编码器模块的现有方法不同,OminiControl (1)有效且高效地结合了注入的图像条件,额外参数仅约为0.1%;(2)以统一的方式处理各种图像条件任务,包括主题驱动生成和空间对齐条件(如边缘、深度等)。值得注意的是,这些能力是通过在DiT自身生成的图像上进行训练实现的,这对于主题驱动生成尤其有利。大量的评估表明,在主题驱动和空间对齐条件生成方面,OminiControl优于现有的基于UNet和DiT改进的模型。此外,我们还发布了我们的训练数据集Subjects200K,这是一个包含超过20万张身份一致图像的多样化集合,以及一个高效的数据合成流程,以推动主题一致生成的研究。
轨迹表示学习 (TRL) 将轨迹映射到向量,然后可用于各种下游任务,包括轨迹相似度计算、轨迹分类和行程时间估计。然而,现有的 TRL 方法生成的向量在下游任务中往往精度不足。一个关键原因是它们未能利用轨迹包含的全面信息。我们提出了一种名为 RED 的自监督 TRL 框架,它有效地利用了多种类型的轨迹信息。总体而言,RED 采用 Transformer 作为主干模型,并对构成轨迹的路径进行掩码以训练掩码自动编码器 (MAE)。特别是,RED 通过采用保留轨迹关键路径的道路感知掩码策略来考虑轨迹的移动模式,从而保留轨迹的关键信息。RED 还采用时空用户联合嵌入方案,在准备轨迹作为模型输入时对全面信息进行编码。为了进行训练,RED 采用双目标任务学习:Transformer 编码器预测轨迹中的下一段,而 Transformer 解码器重建整个轨迹。RED 还通过修改 Transformer 的注意力机制来考虑轨迹的时空相关性。我们在 3 个真实世界数据集上针对 4 个下游任务将 RED 与 9 种最先进的 TRL 方法进行了比较,发现 RED 通常可以将最佳基线的精度提高 5% 以上。
语音识别和说话人识别对于安全和个人助理等应用至关重要。本文提出了一种轻量级的1D卷积神经网络(1D-CNN),旨在对最小数据集进行说话人识别。我们的方法利用数据增强技术处理背景噪声和有限的训练样本,实现了97.87%的验证准确率。未来的改进包括在更大的数据集上进行测试以及集成迁移学习方法以增强泛化能力。我们提供了所有代码、自定义数据集和训练模型以方便复现。这些资源可在我们的GitHub仓库上找到:https://github.com/IrfanNafiz/RecMe。
在线普惠金融服务由于其广泛的用户基础和较低的违约成本而面临着巨大的金融风险。通过实际案例,我们发现利用更长期的用户支付行为可以增强模型预测金融风险的能力。然而,对于深度序列模型来说,学习长行为序列并非易事。此外,支付行为的多样化领域蕴含着丰富的的信息,需要充分挖掘。这些因素共同导致了长期用户行为建模任务的复杂性。为了应对这些挑战,我们提出了一种长期支付行为序列折叠方法,称为LBSF。在LBSF中,基于商户对支付行为序列进行折叠,使用商户字段作为内在的分组标准,这使得信息化的并行处理无需依赖外部知识。同时,我们通过多字段行为编码机制最大限度地利用支付细节。随后,在商户层面的行为聚合以及跨商户的关系学习有助于形成全面的用户财务画像。我们使用大规模真实世界数据集评估了LBSF在金融风险评估任务中的性能。结果表明,基于内部行为线索折叠长行为序列可以有效地模拟长期模式和变化,从而为实际应用生成更准确的用户财务画像。