近年来,大型语言模型 (LLM) 极大地推动了音频生成技术的发展。现有的音频LLM研究主要集中于改进音频语言模型的架构和规模,以及利用更大的数据集,通常采用EnCodec等声学编解码器进行音频标记化。然而,这些编解码器最初是为音频压缩而设计的,这可能会导致音频LLM性能欠佳。我们的研究旨在解决当前音频LLM编解码器的不足,特别是它们在保持生成音频语义完整性方面面临的挑战。例如,现有的方法,如VALL-E,其声学标记生成以文本转录为条件,由于对声学标记的语义误解,常常导致内容不准确和词错误率 (WER) 升高,从而出现跳词和错误。为了克服这些问题,我们提出了一种简单而有效的方法,称为X-Codec。X-Codec在残差矢量量化 (RVQ) 阶段之前结合了来自预训练语义编码器的语义特征,并在RVQ之后引入语义重构损失。通过增强编解码器的语义能力,X-Codec显著降低了语音合成任务中的WER,并将这些优势扩展到非语音应用,包括音乐和声音生成。我们在文本转语音、音乐续写和文本转声音任务中的实验表明,集成语义信息大大提高了语言模型在音频生成中的整体性能。我们的代码和演示已上线(演示:https://x-codec-audio.github.io 代码:https://github.com/zhenye234/xcodec)。
概率必要性和充分性 (PNS) 衡量特征集同时作为预测结果的必要条件和充分条件的可能性。它已被证明可有效指导单模态数据的表示学习,从而提高预测性能和模型鲁棒性。尽管具有这些优点,但 PNS 向多模态环境的扩展仍未探索。这种扩展带来了独特的挑战,因为 PNS 估计的条件(外生性和单调性)需要在多模态环境中重新考虑。我们首先将多模态表示概念化为包含模态不变和模态特定组件,以此来应对这些挑战。然后,我们分析如何计算每个组件的 PNS,同时确保 PNS 估计非平凡。基于这些分析,我们制定了易于处理的优化目标,使多模态模型能够学习高 PNS 表示。实验结果证明了我们的方法在合成数据和真实世界数据上的有效性。
预训练视觉语言模型(VLMs),例如CLIP,越来越多地用于弥合开放词汇图像分割中开放词汇和封闭词汇识别之间的差距。由于VLMs通常使用低分辨率图像(例如,$224\times224$)进行预训练,因此大多数先前的方法仅对降尺度图像进行操作。我们质疑这种设计,因为低分辨率特征往往无法保留精细细节。一个典型的解决方案是为高分辨率输入采用额外的图像主干网络,但这也会带来大量的计算开销。因此,我们提出了MROVSeg,这是一种使用单个预训练CLIP主干网络进行开放词汇图像分割的多分辨率训练框架,它使用滑动窗口将高分辨率输入切分成均匀的块,每个块都与经过良好训练的图像编码器的输入大小匹配。其关键组件包括一个多分辨率适配器,它通过与多分辨率特征交互来恢复空间几何形状并掌握跨块的局部全局对应关系。为了实现精确的分割,我们引入了多粒度掩码注意力机制,以从多分辨率CLIP特征到对象查询聚合多粒度语义。通过全面的实验,我们证明了MROVSeg在成熟的开放词汇图像分割基准测试上的优越性,为开放词汇图像分割树立了新的标准。
大型语言模型辅助工具正日益广泛地被高等院校学生使用。虽然这些工具为改进教学和教育提供了机会,但也对评估和学习成果带来了重大挑战。我们通过脆弱性的视角来理解这些挑战,即大学评估和学习成果可能受到学生使用生成式AI的影响。我们通过衡量AI辅助工具完成标准大学STEM课程评估题目的程度来调查这种脆弱性的潜在规模。具体来说,我们从EPFL的50门课程中汇编了一个新的文本评估题数据集,并评估了两个AI助手GPT-3.5和GPT-4是否能够充分解答这些问题。我们使用了八种提示策略来生成答案,发现GPT-4平均正确回答了65.8%的问题,并且至少可以使用一种提示策略对85.1%的问题给出正确答案。当按学位项目对我们数据集中的课程进行分组时,这些系统已经通过了各种学位项目中大量核心课程的非项目评估,这给高等教育认证带来了风险,并且随着这些模型的改进,这种风险还会进一步扩大。我们的研究结果呼吁高等教育机构根据生成式AI的进步,重新审视项目级别的评估设计。
基于状态空间模型(SSM)的序列建模在各种任务中已展现出超越Transformer的性能,这使得人们对它在离线强化学习(RL)中超越决策Transformer及其改进版本的潜力抱有期待。然而,基于最先进SSM模型Mamba的决策模型未能取得优于这些改进型决策Transformer的性能。我们假设这种局限性源于选择性扫描阶段的信息丢失。为了解决这个问题,我们提出了决策MetaMamba(DMM),它在其输入层中为Mamba添加了一个令牌混合器。该混合器明确考虑了离线RL输入的多模态特性,包括状态、动作和剩余回报。DMM在显著减少参数数量的同时,提高了性能。值得注意的是,使用简单的线性令牌混合器也能获得类似的性能提升,这突显了保留来自相邻时间步的信息比令牌混合器的具体设计更为重要。这种对Mamba输入层的改进代表了与Transformer中使用的传统基于时间戳的编码方法的偏离。通过增强Mamba在离线RL中的性能(其特点是内存效率高且推理速度快),这项工作为其在未来RL研究中的更广泛应用开辟了新的途径。
数据可视化 (DV) 是提高大数据洞察力传递效率的基础工具,已在现有数据驱动型世界中得到广泛认可。DV 中的任务自动化,例如将自然语言查询转换为可视化(即文本到可视化)、从可视化生成解释(即可视化到文本)、以自由形式回答与 DV 相关的提问(即 FeVisQA)以及解释表格数据(即表格到文本),对于推动该领域发展至关重要。尽管具有潜力,但预训练语言模型 (PLM)(如 T5 和 BERT)在 DV 中的应用受到高成本和处理跨模态信息的挑战的限制,导致关于 PLM 用于 DV 的研究很少。我们引入了 DataVisT5,这是一种针对 DV 的新型 PLM,它通过混合目标预训练和多任务微调策略增强了 T5 架构,整合了文本和 DV 数据集以有效解释跨模态语义。在公共数据集上的大量评估表明,DataVisT5 在各种与 DV 相关的任务上始终优于当前最先进的模型。我们预计 DataVisT5 不仅会激发对垂直 PLM 的进一步研究,还会扩展 PLM 的应用范围。
前列腺特异性膜抗原(PSMA)正电子发射断层扫描/计算机断层扫描(PET/CT)成像为可视化前列腺癌(PCa)转移性病灶提供了令人兴奋的前沿技术。然而,由于信噪比低以及病灶大小、形状和位置变化多样,对转移性病灶进行精确分割具有挑战性。本研究提出了一种使用二维去噪扩散概率模型 (DDPM) 对 PSMA PET/CT 三维体图像中转移性病灶进行自动分割的新方法。该方法并非对二维横轴切片或三维体进行分割,而是对生成的 PSMA PET 图像多角度最大强度投影 (MA-MIP) 进行病灶分割,然后从二维 MA-MIP 分割的 3D 有序子集期望最大化 (OSEM) 重建中获得最终的三维分割掩模。与最先进的三维分割方法相比,我们提出的方法在检测和分割小的转移性 PCa 病灶方面的准确性和鲁棒性方面取得了优越的性能。该方法作为一种用于 PCa 患者转移负荷定量分析的工具具有巨大潜力。
大型语言模型(LLM)令人印象深刻的能力引发了人们的争论:这些模型是否真正能够泛化到未见的任务,或者主要依赖于记忆海量的预训练数据。为了探讨这个问题,我们引入了一个扩展的记忆概念——分布式记忆,它衡量LLM输出概率与预训练数据频率之间的相关性。为了有效地捕捉特定任务的预训练数据频率,我们提出了一种新颖的任务语法语言模型,该模型通过计算预训练语料库中来自任务输入和输出的语义相关n-gram对的共现次数来构建。使用在Pile数据集上训练的Pythia模型,我们评估了四个不同的任务:机器翻译、事实性问答、世界知识理解和数学推理。我们的研究结果揭示了不同程度的记忆效应,在事实性问答中观察到最强烈的效应。此外,虽然随着LLM规模的增加,所有任务的模型性能都得到了提高,但只有事实性问答显示出记忆效应的增加,而机器翻译和推理任务则表现出更大的泛化能力,产生了更多新颖的输出。这项研究表明,记忆在更简单、知识密集型任务中扮演着更大的角色,而泛化是更难、基于推理的任务的关键,它提供了一种可扩展的方法来更深入地分析大型预训练语料库。我们还通过一种新颖的提示优化算法展示了我们分析的实际意义。
基于远程光体积描记术的无接触式人脸身份认证:该方法利用面部视频测量心脏信号,作为接触式光体积描记术的便捷替代方案。研究表明,个体具有独特的接触式光体积描记术信号形态,可用于生物特征识别,促使我们利用从面部视频中提取的远程光体积描记术信号形态进行身份认证。由于面部视频中混合了面部外观和远程光体积描记术信息,我们首先对视频进行去识别处理,去除面部外观信息,同时保留远程光体积描记术信息,从而保护面部隐私,并确保仅使用远程光体积描记术进行身份验证。去识别后的视频被送入远程光体积描记术模型以获取用于身份验证的信号形态。首先进行无监督的远程光体积描记术训练以获得粗略的信号;然后,结合外部接触式光体积描记术数据集进行混合训练,以实现远程光体积描记术生物特征认证并增强信号形态。我们的方法只需要包含用户ID的去识别面部视频即可训练远程光体积描记术身份验证模型。实验结果表明,隐藏在面部视频中的远程光体积描记术信号形态可用于生物特征身份认证。代码已开源至https://github.com/zhaodongsun/rppg_biometrics。
扩散模型已成为生成各种领域高质量视觉信号的事实标准。然而,训练单个模型来预测不同层次的噪声带来了巨大的挑战,需要大量的迭代并产生巨大的计算成本。各种方法,例如损失权重策略设计和架构改进,已被引入以加快收敛并提高模型性能。在本研究中,我们提出了一种设计噪声调度以增强扩散模型训练的新方法。我们的关键见解是,对信噪比对数 ($\log \text{SNR}$) 进行重要性采样,在理论上等效于改进的噪声调度,当增加 $\log \text{SNR}=0$ 附近的采样频率时,对于提高训练效率特别有利。这种策略性采样允许模型关注信号主导和噪声主导之间的关键转变点,从而可能产生更稳健和准确的预测。我们通过实验证明了我们的噪声调度优于标准余弦调度。此外,我们还在 ImageNet 基准测试中强调了我们噪声调度设计的优势,表明设计的调度方案始终有利于不同的预测目标。我们的发现有助于持续优化扩散模型的工作,可能为生成式 AI 领域更有效率和有效的训练范式铺平道路。