arXiv:2502.01243v1 交叉公告类型:cross
摘要:大型语言模型(LLMs)在各种医疗应用中展现出了显著的潜力,眼科是一个特别关注的领域。许多眼科任务通过将LLMs集成进来取得了显著的改进。然而,在这些模型能够广泛应用于临床实践之前,评估它们的能力并识别其局限性至关重要。为了解决这一研究缺口并支持LLMs的实际应用,我们引入了OphthBench,这是一个专门设计的基准,旨在评估LLMs在中文眼科实践中的表现。该基准将典型的眼科临床流程系统地分为五个关键场景:教育、分诊、诊断、治疗和预后。对于每个场景,我们开发了多种带有不同问题类型的任务,形成了一个全面的基准,包括9个任务和591个问题。这一全面框架允许对LLMs的能力进行全面评估,并提供其在中文眼科中的实际应用洞察。通过使用这个基准,我们进行了广泛的实验,并分析了39个流行的LLMs的结果。我们的评估突显了LLMs开发与临床应用之间的当前差距,为未来的发展提供了明确的方向。通过弥合这一差距,我们旨在解锁LLMs的潜力,并在其在眼科的发展中推动更多进步。
arXiv:2502.01236v1 行为类型: cross
摘要:语言模型在受到自由形式文本提示时会展现出复杂多样的行为,使得很难定量化可能输出的空间。我们研究了行为引致的问题,目标在于寻找能够引起特定目标行为(例如虚构或有害响应)的提示。为了在指数级的可能提示空间中导航,我们训练调查员模型将随机选择的目标行为映射到能够引致它们的多样化输出分布,类似于鲁棒贝叶斯推理。我们通过监督微调、基于DPO的强化学习以及一个新颖的Frank-Wolfe训练目标来逐步发现多样化的提示策略。我们的调查员模型揭示了多种有效的并且对人类具有可解释性的提示,这些提示能够导致突破、虚构和开放性的异常行为,在AdvBench(有害行为)子集上的攻击成功率达到了100%,且虚构率为85%。
arXiv:2502.01235v1 宣告类型: cross
摘要:本文研究了如何通过我们的理论分析来提高低秩适应(LoRA)的表现。我们的理论结果首先表明,在随机初始化和线性模型的情况下,\textit{i)} LoRA 将与全量微调的一步梯度的某些奇异子空间对齐;\textit{ii)} 前导器在高秩情况下可以提高收敛性。这些见解促使我们集中于使用特定光谱初始化策略的预条件 LoRA,以便与特定子空间对齐。对于线性和非线性模型,我们证明了在初始化时可以直接获得对齐和泛化保证,并且后续的线性收敛也可以建立。我们的分析导致了 \emph{LoRA-One} 算法(使用 \emph{One}-步梯度和预条件处理),这是一种理论上得到支持的算法,它在多个基准测试上比标准 LoRA 及其变体实现了显著的实证改进。基于解耦学习动态并描述光谱初始化如何促进特征学习的理论分析可能对理解矩阵感知和深度学习理论具有独立的研究兴趣。源代码可以在 https://github.com/YuanheZ/LoRA-One。
arXiv:2502.01225v1 宣告类型: cross
摘要: 在预训练阶段,大型语言模型通常会使用大量数据进行训练,这些数据可能包含一些潜在有害的信息。通过利用这一点,微调攻击可以使模型揭示出此类行为,从而生成有害内容。在本文中,我们重点关注在面对微调攻击时,基于链式思维推理的模型 DeepSeek 表现如何。具体而言,我们探讨了微调如何操纵模型的输出,并加剧其响应的有害性,同时研究链式思维推理与对抗性输入之间的交互作用。通过这项研究,我们旨在揭示基于链式思维推理的模型对微调攻击的脆弱性,以及这对它们的安全性和伦理部署有何影响。
arXiv:2502.01218v1 交叉公告类型
摘要:在人类动作视频上预训练视觉-语言表示已成为一种减少对大规模专家演示依赖的有前途的方法,用于训练具身智能体。然而,先前的方法往往采用基于目标达成启发式的时序对比学习,逐步将语言指令从最初的帧对齐到最终的帧。这种过度强调未来帧的做法可能会导致视觉-语言关联出现错误,因为动作可能在早期终止或包含无关的末尾时刻。为了解决这一问题,我们提出了一种动作时序一致性学习(AcTOL)方法,以学习有序且连续的视觉-语言表示,而不受限于刚性目标驱动的约束。AcTOL 将视频视为连续轨迹,其中(1)对比帧之间的语义差异以反映其自然排序,(2)施加局部布朗桥约束以确保在中间帧之间平滑过渡。跨不同示范数量的广泛模仿学习实验表明,预训练特征通过高达49%的增强显著提高了下游操作任务的性能,具有对不同指令语言风格的高鲁棒性,提供了通向通用具身智能体的可行途径。源代码附在补充材料中供参考。
arXiv:2502.01199v1 类型: cross
摘要: 模型量化解广泛应用于深度神经网络(DNNs)的压缩和加速。然而,传统的量化感知训练(QAT)专注于使用均匀的位宽训练DNNs。不同的硬件和传输需求导致不同的位宽设置,这引发了显著的训练和存储成本。因此,提出了针对这一问题的一次性联合训练多个精度的方案。之前的工作要么存储一个较大的FP32模型以便在不同精度模型之间切换以获得更高的准确率,要么存储一个较小的INT8模型但由于使用共享的量化参数而牺牲准确率。在本文中,我们引入了双舍入量化方法,该方法充分利用量化表示范围来实现近乎无损的位切换,同时通过使用最高整数精度而不是全精度来降低存储需求。此外,我们在一次性联合训练中观察到不同的精度之间存在显著的干扰,主要是由于反向传播时量化尺度的不一致梯度。为了解决这一问题,我们提出了自适应学习率缩放(ALRS)技术,该技术动态适应各种精度的学习率以优化训练过程。此外,我们将双舍入扩展到一次性混合精度训练,并开发了一种 Hessia 意识随机位切换(HASB)策略。ImageNet-1K 分类实验结果表明,我们的方法在多精度和混合精度方面具有优于现有的一次性联合QAT的技术优势。我们还在检测、分割任务以及LLM任务上验证了我们方法的可行性。我们的代码可在 https://github.com/haiduo/Double-Rounding 获取。
arXiv:2502.01190v1 类型: cross
摘要:随着生成AI的最新进展,如GAN、扩散模型和VAE,使用生成AI进行舞蹈生成已经取得了显著的进步并引起了广泛关注。在本研究中,我们提出了R-Lodge,这是Lodge的增强版本。R-Lodge结合了名为Dance Recalibration的递归序列表示学习方法,以改进Lodge原始的由粗到细长舞蹈生成模型。R-Lodge使用\(N\)个Dance Recalibration块来解决Lodge模型中粗略舞蹈表示的一致性问题。通过使用该方法,每个生成的舞蹈动作都包含了前一个舞蹈动作的一点信息。我们对R-Lodge进行了评估,并在FineDance数据集上得到了结果,这些结果表明R-Lodge增强了整个生成舞蹈动作的一致性。
arXiv:2502.01189v1 生成类型: cross
摘要: 我们提出了一种基于去噪扩散模型(DDMs)的新型生成方法,该方法生成了高质量的图像样本及其无损压缩的位流表示。这是通过将反向扩散中的标准高斯噪声采样替换为来自预定义的固定iid高斯向量代码本中选择的噪声样本来实现的。令人惊讶的是,我们发现我们的方法(称为去噪扩散代码本模型DDCM)即使对于极其小的代码本也能保持标准DDMs的质量和多样性。我们利用DDCM,并从代码本中选择与给定图像最匹配的噪声,将我们的生成模型转变为一种极其有效的有损图像编解码器,实现了最先进的感知图像压缩结果。更广泛地说,通过设置其他噪声选择规则,我们将我们的压缩方法扩展到任何条件图像生成任务(例如,图像恢复),其中生成的图像与其浓缩的位流表示共同产生。我们的工作还包括对所提出的压缩条件生成方案的数学解释,建立了与所考虑任务中的后验采样器的分数近似之间的联系。
arXiv:2502.01185v1 通知类型: 交叉
摘要: 我们提出了一种新颖的深度学习网络,用于主动语音取消(ASC),其超越了传统的主动噪声取消(ANC)方法,有效地消除了噪声和语音信号。所提出的多频带Mamba架构将输入音频分割成不同的频带,从而实现精确的抗信号生成,并在频率上提高相位对齐效果。此外,我们引入了一种基于优化的损失函数,提供了近乎最优的抗信号生成监督信号。实验结果表明,在主动噪声取消(ANC)场景中实现了高达7.2dB的性能提升,在ASC中实现了6.2dB的提升,显著优于现有方法。音频样本可在 https://mishalydev.github.io/DeepASC-Demo 获取。
arXiv:2502.01184v1 公告类型: cross
摘要:分子性质预测利用分子结构来推断化学性质。具有化学可解释性的表示能够捕捉有意义的分子内相互作用,从而增强这些预测的实用性和有效性。然而,现有方法通常依赖于基于原子或基于规则的片段标记化,这在化学上可能不够优化,并且缺乏可扩展性。我们引入了 FragmentNet,这是一种带有自适应学习标记化的图形到序列基础模型,能够在保持结构连接性的同时将分子图分解为化学有效片段。FragmentNet 结合了 VQVAE-GCN 进行分层片段嵌入、空间位置嵌入使图形序列化、全局分子描述符以及变压器。通过掩码片段建模预训练并在 MoleculeNet 任务上微调,FragmentNet 在具有相似规模的架构和数据集的同时,超越了其他模型,并且在资源需求显著减少的情况下与更大规模的先进模型相当。这种新的框架使分子图的自适应分解、排序和重建成为可能,促进了基于片段的编辑和在学习嵌入中属性趋势的可视化——这对于分子设计和优化来说是一个强有力的工具。