量子计算研究的核心挑战之一在于,能否在具有实际应用意义的近中期量子电路中找到量子优势。基于此,本文在概率近似正确(PAC)分布学习框架下,利用浅层量子电路假设证明了无条件的量子优势。我们确定了一个有意义的生成式分布学习问题,其中使用单量子比特和双量子比特门的常数深度量子电路(QNC⁰)优于常数深度有界扇入经典电路(NC⁰)作为假设类。因此,我们证明了浅层量子电路相对于浅层经典电路的PAC分布学习分离。我们基于Bene Watts和Parham关于浅层电路采样任务的无条件量子优势的最新成果,将其提升到超平面学习问题,并将非局部关联确定为量子优势的起源。
虽然文本到视频扩散模型取得了显著进展,但许多模型仍然面临生成具有时间一致性视频的挑战。在扩散框架内,引导技术已被证明可有效提高推理过程中的输出质量;然而,将这些方法应用于视频扩散模型会带来处理整个序列计算的额外复杂性。为了解决这个问题,我们提出了一种名为MotionPrompt的新颖框架,该框架通过光流引导视频生成过程。具体来说,我们训练了一个判别器来区分真实视频和生成视频中随机帧对之间的光流。鉴于提示可以影响整个视频,我们在反向采样步骤中使用来自应用于随机帧对的训练判别器的梯度来优化可学习的标记嵌入。这种方法允许我们的方法生成视觉上连贯的视频序列,这些序列密切反映了自然的运动动态,而不会影响生成内容的保真度。我们在各种模型上证明了我们方法的有效性。
基于区域引导的参考与定位框架Reg2RG用于CT报告生成。该方法通过关注体积内的解剖区域来增强诊断性能,解决了现有方法主要仅考虑整个体积的全局特征,难以关注特定区域并可能遗漏异常情况的问题。Reg2RG利用通用分割模块的掩码来捕获每个参考区域的局部特征,并提出了一种局部特征解耦(LFD)策略,以较低的计算开销保留局部高分辨率细节。然后,将局部特征与全局特征集成,以在一个连贯的上下文中捕获区域间的相互关系。此外,该方法提出了一种新颖的区域-报告对齐(RRA)训练策略,利用参考区域的识别来指导特定区域报告的生成,增强模型的参考和定位能力,同时提高报告的可解释性。最后,采用大型语言模型(LLM)作为语言解码器,根据集成的视觉特征生成报告,促进区域级理解。在两个大型胸部CT报告数据集上的大量实验表明,该方法优于几种最先进的方法,在自然语言生成和临床疗效指标方面均取得了优异的性能,同时保持了良好的可解释性。代码将公开发布。
本文提出了一种改进的基于大型语言模型 (LLM) 的语法错误检测 (GED) 模型,语法错误检测是一个对许多应用来说都极具挑战性和同样重要的难题。传统的 GED 方法涉及手工设计的特征,但最近,神经网络 (NN) 自动化了这些特征的发现,从而提高了 GED 的性能。传统的基于规则的系统具有 0.50-0.60 的 F1 分数,早期的机器学习模型(包括决策树和简单的神经网络)的 F1 分数为 0.65-0.75。之前的深度学习模型(例如,Bi-LSTM)报告的 F1 分数在 0.80 到 0.90 之间。在我们的研究中,我们使用经过我们严格清洗的 Lang8 数据集微调了各种 Transformer 模型。在我们的实验中,BERT-base-uncased 模型表现令人印象深刻,在训练数据上的 F1 分数为 0.91,准确率为 98.49%,在测试数据上的准确率为 90.53%,这也突显了数据清洗的重要性。使用 BERT-large-uncased 或 RoBERTa-large 等更大的模型并没有在这个任务中带来任何明显的性能提升或优势,这强调了更大的模型并不总是更好。我们的结果清楚地表明,严格的数据清洗和简单的基于 Transformer 的模型可以在多大程度上显著提高 GED 的质量。
视觉生成模型在计算机图形学应用中取得了显著进展,但在实际部署中仍面临重大挑战。当前对视觉生成任务的评估方法通常遵循一个孤立的三阶段框架:测试输入收集、模型输出生成和用户评估。这些方法存在覆盖范围固定、难度不断变化以及数据泄漏风险等问题,限制了其在全面评估日益复杂的生成模型方面的有效性。为了解决这些局限性,我们提出了 DyEval,这是一个由大型语言模型 (LLM) 驱动的动态交互式视觉评估框架,它促进了人与生成模型之间针对文本到图像系统的协作评估。DyEval 具有直观的可视化界面,使用户能够交互式地探索和分析模型行为,同时自适应地生成分层、细粒度和多样化的文本输入,以根据用户的反馈持续探测模型的能力边界。此外,为了为用户提供可解释的分析以进一步改进被测试的模型,我们开发了一个上下文反思模块,该模块挖掘测试输入的失败触发因素,并反映模型潜在的失败模式,从而利用大型语言模型的逻辑推理能力进行深入分析。定性和定量实验表明,DyEval 可以有效地帮助用户识别比传统方法多达 2.56 倍的生成失败,并发现复杂且罕见的失败模式,例如代词生成和特定文化语境生成方面的问题。我们的框架为改进生成模型提供了宝贵的见解,并对提高视觉生成系统在各个领域的可靠性和能力具有广泛的意义。
代码片段适配是软件开发过程中的一个基本活动。与代码生成不同,代码片段适配并非“自由创作”,它需要开发人员调整给定的代码片段以适应特定的需求和代码上下文。最近,大型语言模型 (LLM) 在代码生成任务中证实了其有效性,并取得了可喜的成果。然而,它们在适配任务(一项面向重用且依赖上下文的代码更改预测任务)上的性能仍不清楚。为了弥合这一差距,我们进行了一项实证研究,以调查 LLM 在适配任务上的性能和问题。我们首先评估了三个流行的 LLM 的适配性能,并将它们与代码生成任务进行了比较。我们的结果表明,它们的适配能力弱于生成能力,pass@1 下降了近 15%,并且出现了更多与上下文相关的错误。通过人工检查 200 个案例,我们进一步调查了 LLM 性能欠佳的原因,这些原因可分为三类:需求不明确、需求错配和上下文误用。基于上述实证研究,我们提出了一种交互式提示方法来激发 LLM 的适配能力。实验结果表明,我们的方法极大地提高了 LLM 的适配性能。性能最佳的人机交互成功解决了 202 个已识别缺陷中的 159 个,并将 pass@1 和 pass@5 提高了 40% 以上,超过了最初基于指令的提示。考虑到人力成本,我们建议采用多智能体交互作为一种折衷方案,它可以实现具有出色泛化能力的相当性能。我们认为,我们的方法可以为使用 LLM 进行自主代码片段重用和适配提供方法论上的帮助。
受扩散模型的显著进展驱动,文本到图像生成取得了重大进展,这迫切需要对生成的图像进行自动质量评估。目前的自动评估方法主要依赖于多模态大型语言模型(MLLM),特别是像GPT-4o这样功能强大的商业模型。虽然这些模型非常有效,但其高昂的成本限制了大规模评估的可扩展性。采用开源MLLM是一种替代方案;然而,由于在处理多模态数据方面与商业MLLM相比存在显著局限性,其性能有所下降。为了解决这些问题,我们首先提出一个基于GPT-4o的任务分解评估框架来自动构建新的训练数据集,其中复杂评估任务被分解成更简单的子任务,有效降低了学习复杂度。基于此数据集,我们设计了创新的训练策略,将GPT-4o的评估能力有效地蒸馏到一个7B的开源MLLM,MiniCPM-V-2.6中。此外,为了可靠且全面地评估先前的工作和我们提出的模型,我们手动标注了一个元评估基准,其中包括生成的图像的质量分数以及思维链解释。实验结果表明,我们蒸馏的开源MLLM显著优于当前最先进的基于GPT-4o的基线VIEScore,在与人工判断的Spearman和Kendall相关性方面提高了4.6%以上。
大型语言模型 (LLM) 在从常规基于自然语言处理的用例到 AI 智能体的广泛应用中都取得了巨大的成功。LLM 在来自各种来源的大量文本语料库上进行训练;尽管在训练 LLM 的数据预处理阶段付出了最大的努力,但它们可能会收集一些不良信息,例如个人身份信息 (PII)。因此,近年来,机器遗忘 (MUL) 领域的研究所取得的进展,其主要思想是强制 LLM 忘记(遗忘)某些信息(例如,PII),而不会在常规任务上造成性能损失。在这项工作中,我们检查了现有 MUL 技术的鲁棒性,以评估其在 LLM 中实现防泄漏遗忘的能力。特别是,我们检查了数据转换对遗忘的影响,即,如果输入格式发生变化,未学习的 LLM 是否能够回忆起被遗忘的信息?我们在 TOFU 数据集上的发现强调了使用多种数据格式来更可靠地量化 LLM 中遗忘的必要性。
基于文本控制人体运动是计算机视觉领域的一项重要挑战。传统方法通常依赖于整体的动作描述进行运动合成,难以捕捉局部身体部位的细微动作,从而限制了对特定动作进行隔离和操控的能力。为了解决这个问题,我们提出了一种新颖的运动表示方法,该方法从运动学的角度将运动分解成不同的身体关节组运动及其相互作用。我们设计了一个自动数据集收集流程,通过加入细粒度的局部关节组运动和交互描述来增强现有的文本-运动基准。为了弥合文本和运动领域之间的差距,我们引入了一种分层运动语义方法,逐步将关节层面的交互信息融合到全局动作层面的语义中,以实现模态对齐。利用这种层次结构,我们引入了一种由粗到精的运动合成过程,用于各种生成和编辑的下游应用。我们的定量和定性实验表明,所提出的方法通过改进关节空间理解来增强文本-运动检索,并能够实现更精确的关节运动生成和控制。项目页面:{\small\url{https://andypinxinliu.github.io/KinMo/}}
评估代码语言模型 (CLM) 在软件工程任务中的性能,尤其是在多语言和低资源编程语言环境中,面临着巨大的挑战。这些挑战主要源于缺乏跨各种编程语言的高质量基准测试,以及 CLM 训练语料库的不平衡性质。尽管最近在代码生成(一种常见的下游任务)方面取得了进展,通过使用不同的方法引入翻译后的基准测试展现出希望,但目前缺乏评估这些基准测试的经验证据。为了解决这一差距,我们进行了一项初步研究,以评估 Poly-Coder 的性能,Poly-Coder 是一款为代码生成而构建的开创性开源多语言 CLM。我们使用了两种现有的最先进的流行代码生成基准测试 HumanEval 的翻译版本,这些版本由 OctoPack 和 MultiPL-E 研究提供。我们的结果表明,在这些翻译后的基准测试中观察到的结果与训练阶段使用的评估指标(例如困惑度)非常吻合,从而验证了它们在估计 CLM 性能方面的有效性。但是,我们发现 CLM 在翻译后的基准测试中的性能存在一些不一致之处,并且在复制结果方面也遇到了一些挑战。这些初步的见解凸显了需要进行更全面的实证研究,以充分了解翻译后的基准测试的方法、局限性和可重复性。此类研究对于确保其可靠性并在广泛采用之前至关重要。