大型语言模型 (LLM) 因其庞大的参数数量和在海量数据集上的训练,在数学推理任务中展现出卓越的能力。尽管如此,LLM 的部署受到其计算需求的限制。将 LLM 的数学推理能力蒸馏到更小的语言模型 (SLM) 中已成为解决这一挑战的方案,但这些更小的模型经常在计算和语义理解方面出现错误。先前的工作提出了思想程序蒸馏 (PoTD) 来避免计算错误。为了进一步解决语义理解错误,我们提出了关键点驱动的数学推理蒸馏 (KPDD)。KPDD 通过将问题解决过程分解为三个阶段来增强 SLM 的推理性能:核心问题提取、问题解决信息提取和逐步解决方案。该方法进一步细分为生成思维链推理的 KPDD-CoT 和生成思想程序推理的 KPDD-PoT。实验结果表明,KPDD-CoT 显着提高了推理能力,而 KPDD-PoT 在数学推理任务中取得了最先进的性能。我们的方法有效地减轻了误解错误,促进了高效且功能强大的 SLM 的部署。
PaliGemma 是一款基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型的开放式视觉语言模型 (VLM)。它经过训练成为一个多功能且知识渊博的基础模型,能够有效地进行迁移学习。它在各种开放世界任务中取得了优异的性能。我们评估了 PaliGemma 在近 40 种不同任务上的表现,包括标准 VLM 基准测试,以及遥感和分割等更专业化的任务。
许多现实世界的应用需要机器学习模型能够处理非平稳数据分布,从而在较长的时间内自主学习,通常是在在线环境中。这种情况下,主要挑战之一是所谓的灾难性遗忘 (CF),在这种情况下,学习模型倾向于关注最新的任务,而对旧任务的预测能力下降。在在线环境中,最有效的解决方案使用固定大小的内存缓冲区来存储旧样本,这些样本在训练新任务时用于重放。已经提出了许多方法来解决这个问题。然而,目前尚不清楚如何以最有效的方式利用预测不确定性信息来进行内存管理,并且针对内存填充提出了相互矛盾的策略。最容易遗忘的样本还是最容易记住的样本在对抗 CF 方面更有效?从预测不确定性提供了样本在决策空间中位置的直观想法这一直觉出发,本文对不同的不确定性估计和内存填充策略进行了深入分析。该研究提供了对缓解 CF 所需数据点特征的更深入理解。然后,我们提出了一种通过负对数似然诱导的广义方差来估计预测不确定性的替代方法。最后,我们证明了使用预测不确定性度量有助于在不同设置中减少 CF。
越来越多的应用依赖于少数封闭源语言模型 (LM)。如果 LM 发展出自我识别能力,这种依赖可能会带来新的安全风险。受人类身份验证方法的启发,我们提出了一种新方法,使用模型生成的“安全问题”来评估 LM 中的自我识别。我们的测试可以外部管理以监控前沿模型,因为它不需要访问内部模型参数或输出概率。我们使用我们的测试来检查目前公开可用的十个最强大的开源和闭源 LM 中的自我识别。我们广泛的实验没有发现任何受检 LM 中存在普遍或一致的自我识别。相反,我们的结果表明,在给定一组备选方案的情况下,LM 会试图选择“最佳”答案,无论其来源如何。此外,我们发现 LM 对哪些模型产生最佳答案的偏好是一致的。我们还揭示了多项选择设置中 LM 的位置偏差考虑因素的新见解。
大型语言模型 (LLMs) 使得未来某些类型的法律文件可以自动生成成为可能。这极有可能简化法律流程,降低法律服务成本,并极大地提高司法公正。虽然许多研究人员专注于提出和评估支持法律领域任务的基于 LLMs 的应用程序,但对于法律专业人士如何看待他们认为由 LLM 生成的内容却缺乏调查。然而,这是一个关键点,因为过度依赖或毫无根据的怀疑可能会影响此类文件是否会带来适当的法律后果。本研究是对正在进行的向成熟生成式 AI 系统过渡的必要分析。具体来说,我们调查了律师和法学院学生 (n=75) 对法律文件感知是否因其假定的来源(人工制作 vs AI 生成)而异。参与者评估了这些文件,重点关注其正确性和语言质量。我们的分析表明,与被认为由 AI 生成的文件相比,人们明显更喜欢被认为由人类制作的文件。与此同时,大多数参与者预计未来将自动生成文件。这些发现可以被法律从业者、政策制定者和立法者用来负责任地实施和采用法律文件生成技术,并推动关于如何更新法律程序以反映最新技术发展的必要讨论。
为了提高单图像超分辨率 (SISR) 应用的效率和可扩展性,我们引入了 AnySR,将现有的任意尺度 SR 方法重建为任意尺度、任意资源的实现。与现成的解决各种尺度 SR 任务但计算成本相同的方法形成对比,我们的 AnySR 在以下方面进行了创新:1) 将任意尺度任务构建为任意资源实现,减少了较小尺度所需的资源,无需额外参数;2) 以特征交织的方式增强任意尺度性能,在特征中以固定间隔插入尺度对,并确保特征/尺度处理正确。我们通过重建大多数现有的任意尺度 SISR 方法并在五个流行的 SISR 测试数据集上进行验证,充分证明了 AnySR 的有效性。结果表明,我们的 AnySR 以更有效的计算方式实现了 SISR 任务,并且与现有的任意尺度 SISR 方法性能相当。我们首次实现了 SISR 任务,不仅在文献中是任意尺度的,而且也是任意资源的。代码可在 https://github.com/CrispyFeSo4/AnySR 获取。
帧间建模是视频帧插值 (VFI) 生成中间帧的关键。当前的方法主要依赖于卷积或基于注意力的模型,这些模型通常缺乏足够的感受野或导致巨大的计算开销。最近,选择性状态空间模型 (S6) 应运而生,专门针对长序列建模,提供线性复杂度和数据相关建模能力。在本文中,我们提出了 VFIMamba,一种新颖的帧插值方法,通过利用 S6 模型实现高效且动态的帧间建模。我们的方法引入了混合 SSM 模块 (MSB),该模块最初以交错方式重新排列来自相邻帧的标记,然后应用多方向 S6 建模。这种设计有助于在帧之间有效地传输信息,同时保持线性复杂度。此外,我们引入了一种新颖的课程学习策略,该策略逐步培养跨不同运动幅度的帧间动态建模能力,充分释放 S6 模型的潜力。实验结果表明,我们的方法在各种基准测试中取得了最先进的性能,尤其是在高分辨率场景中表现出色。特别是在 X-TEST 数据集上,VFIMamba 在 4K 帧和 2K 帧上分别实现了 0.80 dB 和 0.96 dB 的显著改进。
扩展训练数据集和可学习参数的规模化定律已成为开发更强大学习模型的普遍策略。然而,由于数据、计算和信任方面的瓶颈,规模化定律的可持续性对深度学习的未来构成严重担忧。本文通过以简洁的方式开发下一代模型(即用更简单的模型实现更大的潜力)来解决这个问题。关键是利用领域特定知识(如符号、逻辑和公式)来驱动模型,而不是依赖规模化定律。这种方法使我们能够构建一个框架,利用这些知识作为“构建块”来实现模型设计、训练和解释的简洁性。实证结果表明,我们的方法优于通常遵循规模化定律的方法。我们还展示了我们的框架在科学人工智能中的应用,特别是在药物-药物相互作用预测问题中。我们希望我们的研究能够在基础模型时代促进更多样化的技术路线图。
大型语言模型 (LLMs) 在各种自然语言处理应用中取得了显著的性能进步。然而,LLMs 仍然难以满足医疗领域对准确性和可靠性的严格要求,在临床应用中面临着许多挑战。现有的用于评估由 LLMs 提供支持的医疗代理的临床诊断评估基准存在严重的局限性。首先,大多数现有的医疗评估基准面临数据泄露或污染的风险。其次,现有的基准往往忽略了现代医疗实践中多个科室和专业的特点。第三,现有的评估方法仅限于多项选择题,这与现实世界的诊断场景不符。最后,现有的评估方法缺乏对端到端真实临床场景的全面评估。基准中的这些局限性反过来阻碍了 LLMs 和医疗代理的进步。为了解决这些局限性,我们引入了 ClinicalLab,一个全面的临床诊断代理对齐套件。ClinicalLab 包含 ClinicalBench,一个用于评估医疗代理和 LLMs 的端到端多部门临床诊断评估基准。ClinicalBench 基于涵盖 24 个科室和 150 种疾病的真实案例。ClinicalLab 还包括四个用于评估 LLMs 在临床诊断任务中的有效性的新指标 (ClinicalMetrics)。我们评估了 17 个 LLMs,发现它们在不同科室的性能差异很大。基于这些发现,我们在 ClinicalLab 中提出了 ClinicalAgent,一个与现实世界临床诊断实践相一致的端到端临床代理。我们系统地研究了 ClinicalAgent 变体在 ClinicalBench 上的性能和适用场景。我们的研究结果证明了在设计医疗代理时与现代医疗实践相一致的重要性。
大型语言模型 (LLM) 的最新进展显著提升了对话代理的能力,使其适用于各个领域(如教育)。尽管取得了进步,但对代理的评估往往忽略了现实世界对话的复杂性,例如实时交互、多方对话和扩展的上下文依赖关系。为了弥合这一差距,我们引入了 DialSim,一个实时对话模拟器。在这个模拟器中,代理被分配了来自热门电视剧的角色,要求它使用过去的对话信息来回答自发的提问,并区分已知信息和未知信息。DialSim 的关键特征包括评估代理在合理时间限制内做出回应的能力、处理长期多方对话以及在使用多样化和高质量问答数据集的随机提问下测试代理的性能。我们利用该模拟器评估了最新的对话代理并分析了它们的局限性。我们的实验突出了这些代理的优缺点,为对话式人工智能领域的未来改进提供了宝贵的见解。DialSim 可在 https://dialsim.github.io/ 获取。