arXiv:2502.14637v2 Announce Type: replace-cross
摘要:蛋白质主链生成在从头设计蛋白质中扮演核心角色,并对许多生物学和医学应用至关重要。尽管扩散和流式生成模型为这一挑战性的任务提供了潜在解决方案,但它们通常生成具有不良设计性的蛋白质,并且计算效率低下。在这项研究中,我们提出了一种新的修正四元数流(ReQFlow)匹配方法,用于快速高效地生成蛋白质主链。特别是,我们的方法为蛋白质链中的每个残基从随机噪声生成局部平移和三维旋转,将每个三维旋转表示为单位四元数,并通过指数格式中的球面线性插值(SLERP)构建其流。我们通过保证数值稳定性的四元数流(QFlow)匹配训练模型,并修正QFlow模型以加速推断并提高生成的蛋白质主链的设计性,从而提出了ReQFlow模型。实验表明,ReQFlow在蛋白质主链生成方面取得了最先进的性能,同时需要较少的采样步骤和显著减少的推断时间(例如,在生成长度为300的主链时,比RFDiffusion快37倍,比Genie2快62倍),证明了其有效性和效率。代码可在https://github.com/AngxiaoYue/ReQFlow 获取。
arXiv:2502.13178v3 宣告类型: replace-cross
摘要:后训练量化(PTQ)技术由于其高效性和低资源需求,已被广泛应用于大语言模型(LLMs)的压缩。然而,当前研究缺乏对每种PTQ策略的优越和适用场景的深入分析。此外,现有算法主要集中在性能上,而忽视了模型大小、性能和量化位宽之间的权衡。为了缓解这些困惑,我们在本文中提供了一种针对LLMs PTQ的新基准。首先,为了支持我们的基准,我们通过仔细审查现有主流方法的计算策略(例如,基于优化的、基于补偿的等)提出了一个全面的分类法。然后,我们在每个类别中使用基准进行了广泛的实验,涵盖了各种规模(7B-70B)的模型、各种量化位宽、不同的训练级别(LLaMA1/2/3/3.1)、架构(Mixtral、DeepSeekMoE 和 Mamba)和模态(LLaVA1.5 和 VILA1.5)在广泛的评估指标上。通过对结果的比较分析,我们总结了每种PTQ策略的优势以及考虑性能的模型大小-量化位宽权衡。例如,我们的基准揭示了基于补偿的技术在跨架构上的出色鲁棒性,并且对于超大规模模型的极低位宽PTQ需要重新审视。最后,我们进一步声称,补偿与其他PTQ策略的实用组合可以实现各种鲁棒性的SOTA。我们认为,我们的基准将为LLMs的部署和未来PTQ方法的研究提供有价值的建议。我们在此 GitHub 仓库中发布了我们的基准:https://github.com/zjq0455/PTQ_Benchmark。
arXiv:2502.06924v4 宣告类型: replace-cross
摘要:状态空间模型(SSMs)已经成为了序列数据任务中变压器的一种高效替代方案,提供了随序列长度呈线性或近线性扩展的规模性,使其成为自然语言处理、视觉和边缘AI中长序列应用的理想选择,包括实时转录、翻译和上下文搜索。这些应用需要在笔记本电脑和PC等资源受限设备上部署的轻量级高性能模型。为每种新兴的神经网络设计专用加速器既昂贵又不实际;相比之下,优化现有AI PC中的NPUs(神经处理器)性能提供了一种可扩展的解决方案。为此,我们提出XAMBA,这是第一个框架,使其能够在商用现成(COTS)的最新(SOTA)NPUs上启用和优化SSMs。XAMBA遵循三步方法论:(1)在NPUs上启用SSMs,(2)优化性能以满足关键性能指标(KPI)要求,(3)通过牺牲精度以获得额外的性能提升。在NPUs上启用SSMs后,XAMBA使用CumBA和ReduBA缓解关键瓶颈,将顺序的CumSum和ReduceSum操作替换为基于矩阵的计算,显著提高了执行速度和内存效率。此外,ActiBA通过使用分段线性映射来近似昂贵的激活函数(例如,Swish、Softplus),从而减少延迟且损失最小的精度。在Intel Core Ultra Series 2 AI PC上的评估显示,XAMBA相较于基线实现了最多4.8倍的加速。我们的实现可以在https://github.com/arghadippurdue/XAMBA获取。
arXiv:2502.04756v2 宣告类型: replace-cross
摘要:本文提出了一种新的方法学框架,利用开源大型语言模型(LLMs)从文本数据中检测和分类潜在构造,包括框、叙述和主题。提出的混合方法将自动总结与人工在环验证相结合,以提高结构识别的准确性和可解释性。通过结合迭代采样与专家 refinement,该框架保证了方法学的稳健性并确保了概念的精确性。该方法应用于多元化的数据集,包括人工智能政策辩论、加密新闻文章和20个新sgroups数据集,展示了其在系统分析复杂政治言论、媒体框架和主题分类任务中的灵活性。
arXiv:2502.01692v5 宣布类型: replace-cross
摘要: 引导扩散模型生成是定制预训练扩散模型以解决特定下游任务生成过程的一个有前景的方向。现有的引导扩散模型要么依赖于使用预先收集的数据集训练引导模型,要么需要使目标函数可微。然而,对于大多数现实世界任务,离线数据集往往不可用,其目标函数往往不可微,例如具有人类偏好的图像生成、药物发现中的分子生成和材料设计。因此,我们需要一种能够在运行时收集数据且支持黑盒目标函数的在线算法。此外,算法的查询效率也至关重要,因为在实际场景中,查询的目标评估往往很昂贵。在本文中,我们提出了一种新颖且简单的算法——Fast Direct,用于高效的在线黑盒目标生成。Fast Direct在数据流形上构建一个伪目标,以通用方向更新扩散模型的噪声序列,这有望实现高效的引导生成。在十二项高分辨率(1024×1024)图像目标生成任务和六项3D分子目标生成任务上的广泛实验表明,查询效率分别提高了6倍至10倍和11倍至44倍。我们的实现已公开发布在:https://github.com/kimyong95/guide-stable-diffusion/tree/fast-direct
arXiv:2502.00290v3 宣布类型: replace-cross
摘要:在过去的几年里,大型语言模型(LLMs)取得了快速发展,并广泛应用于各个领域。然而,LLMs 面临着幻觉的问题,在模型缺乏相关知识时,生成的响应可能不可靠。为了意识到潜在的幻觉,已经引入了不确定性估计方法,大多数方法都证实了可靠性在于关键令牌。然而,基于概率的方法在识别令牌可靠性方面表现不佳,限制了它们的实际应用价值。在本文中,我们揭示了基于概率的方法由于训练阶段积累的证据强度信息丢失而无法估计令牌可靠性。因此,我们提出了 Logits-诱导令牌不确定性(LogTokU),一种用于在LLMs中估计解耦合令牌不确定性的框架,能够在不需要多次采样过程的情况下进行实时不确定性估计。我们采用证据建模来实现 LogTokU,并使用估计的不确定性来指导下游任务。实验结果表明,LogTokU 具备显著的效果和潜力。
arXiv:2501.18565v2 宣传类型: 替换-交叉
摘要:近年来,人工智能尤其是多模态大规模语言模型的迅速发展,使其能够理解文本、图像、视频及其他多媒体数据,从而允许人工智能系统根据人类提供的提示执行各种任务。然而,以人工智能为后盾的聊天机器人越来越多地能够绕过现有的大部分验证码系统,给网络应用程序带来严重安全威胁。这使得设计新的验证码机制成为当务之急。我们观察到,人类对视频中的边界转换和突然中断非常敏感,而现有的人工智能系统仍然难以有效理解并应对这些情况。基于这一观察,我们设计并实现了BounTCHA,一种利用人类在视频过渡和中断中感知边界特性的验证码机制。通过利用人工智能扩展原始视频的能力,我们引入了意料之外的转折和变化,创建了一个生成用于验证码目的的指导短视频的流水线。我们开发了一个原型并进行实验,收集了人类在边界识别上的时间偏向数据,这些数据作为区分人类用户和机器人的基础。此外,我们还对BounTCHA进行了详尽的安全分析,展示了其在各种类型的攻击下保持鲁棒性的能力。我们希望BounTCHA能够作为一种强大的防御措施,在人工智能驱动的时代保护数百万网络应用程序的安全。
arXiv:2501.15140v3 宣告类型: replace-cross
摘要:多模态大型语言模型(MLLMs)在各种视觉理解任务中展示了非凡的能力。然而,MLLMs 在细粒度视觉识别(FGVR)方面仍存在问题,FGVR 的目标是识别图像中的下位类别。这可能会影响 MLLMs 更高级的能力,如基于对象的视觉问答和推理。在我们的研究中,我们重新审视了 MLLMs 在 FGVR 方面的三种基本能力,包括对象信息提取、类别知识储备、对象-类别对齐,以及将这些能力作为对齐问题的根源的位置。为了解决这个问题,我们提出了 Finedefics,这是一种通过在训练阶段合并对象的描述性属性信息来增强模型 FGVR 能力的 MLLM。我们同时在对象-属性对和属性-类别对上使用对比学习,并使用类似但错误的类别的例子作为难以否定的负样本,自然地使视觉对象的表示形式与类别名称更加接近。在多个流行的 FGVR 数据集上的广泛评估表明,Finedefics 在与之对比的现有相似参数量的 MLLM 中表现出色,展示了其显著的效果。代码可在 https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025 获取。
arXiv:2501.11357v2 宣告类型: replace-cross
摘要:递归神经网络(RNNs)是高维状态空间模型,能够学习序列数据上的函数。最近有人猜测,特定类别的RNNs,即水库计算机,在被用于动态系统观察的训练后,可以被解释为嵌入。这一结果已经在线性水库系统的情况下得到了证实。在本文中,我们采用非自治动力系统的方法,建立了训练和预测阶段期间近似水库状态空间子集的分形维数的上界。我们证明,当输入序列来自一个N维可逆动力系统时,该集合的分形维度的上界为N。本文所得结果对于RNNs中的维数降低计算很有用,同时也可以用于基于时间序列有限观察估计动力系统的分形维度。这也是理解水库计算机嵌入性质的一步。
arXiv:2501.11309v2 announce type: replace-cross
摘要:类激活图(CAM)已被广泛用于强调对分类预测有贡献的图像区域。尽管CAM非常简单且计算效率高,但它在识别视觉上相似但具有细微差异的类别的区分区域方面常常表现不佳。此前的努力通过引入更复杂的解释过程来解决这一局限性,但代价是增加了额外的复杂性。在本文中,我们提出了一种Finer-CAM方法,该方法保持了CAM的高效性,同时实现了对区分区域的精确定位。我们的关键见解是,CAM的问题不在于“如何”解释,而在于“解释什么”。具体而言,之前的尝试试图识别所有对目标类logit值有贡献的线索,这无意中也激活了预测外观上相似类别的区域。通过显式地将目标类与其他相似类进行比较并找出它们之间的差异,Finer-CAM抑制了与其他类别共享的特征,强调了目标类的独特、区分性的细节。Finer-CAM易于实施,与各种CAM方法兼容,并可以扩展到多模态模型以实现特定概念的精确定位。此外,Finer-CAM允许调整比较强度,使用户能够有选择地突出显示粗略的物体轮廓或精细的区分性细节。定量实验显示,通过遮蔽Finer-CAM激活的前5%像素,与基线相比,相对置信度下降更大。源代码和示例可在https://github.com/Imageomics/Finer-CAM获取。