本文提出了一种高效且准确的文本相关说话人验证 (TDSV) 管道,旨在满足高性能生物识别系统需求。该系统结合了一个基于Fast-Conformer的自动语音识别 (ASR) 模块来验证语音内容,过滤掉目标错误 (TW) 和冒充者错误 (IW) 测试。对于说话人验证,我们提出了一种特征融合方法,该方法结合了从 wav2vec-BERT 和 ReDimNet 模型中提取的说话人嵌入,以创建一个统一的说话人表示。该系统在 TDSV 2024 挑战赛测试集上取得了具有竞争力的结果,归一化最小 DCF 值为 0.0452(排名第二),突出了其在平衡准确性和鲁棒性方面的有效性。
眼底图像被广泛用于诊断各种眼科疾病,例如糖尿病性视网膜病变、青光眼和年龄相关性黄斑变性。然而,眼底图像的 manual analysis 费时且容易出错。在本报告中,我们提出了一种使用目标检测和机器学习分类技术进行眼底检测的新方法。我们使用 YOLO_V8 对眼底图像进行目标检测,并定位感兴趣区域 (ROI),例如视盘、视杯和病灶。然后,我们使用机器学习 SVM 分类算法根据渗出物、微动脉瘤和出血等病理体征的有无,将 ROI 分类为不同的 DR 阶段。我们的方法实现了 84% 的眼底检测准确率和效率,可用于视网膜眼底疾病的分诊,尤其是在世界各地的偏远地区。
将贝叶斯优化扩展到批量评估可以使设计者最大限度地利用并行计算技术。大多数现有的批量方法使用人工函数来模拟顺序贝叶斯优化算法的行为,以选择一批点进行并行评估。然而,随着批量大小的增加,这些人工函数引入的累积误差迅速增加,这会显著降低算法的优化效率。在这项工作中,我们提出了一种简单有效的方法来将贝叶斯优化扩展到批量评估。与现有的批量方法不同,新方法的思想是从原始问题的子空间中抽取一批子空间,并从每个子空间中选择一个采集点。为此,我们提出了期望子空间改进准则来衡量候选点在一个特定子空间内可以达到的改进量。通过同时优化这些期望子空间改进函数,我们可以得到一批用于昂贵评估的查询点。数值实验表明,与顺序贝叶斯优化算法相比,我们提出的方法可以实现近线性加速,并且与八种最先进的批量算法相比具有很强的竞争力。这项工作为批量贝叶斯优化提供了一种简单而有效的方法。我们方法的Matlab实现可在https://github.com/zhandawei/Expected_Subspace_Improvement_Batch_Bayesian_Optimization获取。
尽管大型多模态模型取得了进展,但由于上下文长度限制和巨大的内存开销,将它们应用于长而未经剪辑的视频内容仍然具有挑战性。这些限制通常会导致模型响应中出现重大信息丢失和相关性降低。随着网络平台上视频数据的指数级增长,理解长篇视频对于推进通用人工智能至关重要。在本文中,我们介绍了SALOVA:基于片段增强的长视频助手,这是一个新颖的视频-大型语言模型框架,旨在通过有针对性的检索过程来增强对冗长视频内容的理解。我们解决了实现这一目标的两个主要挑战:(i)我们提出了SceneWalk数据集,这是一个高质量的87.8K个长视频集合,每个视频在片段级别进行了密集的字幕标注,使模型能够捕捉场景连续性并保持丰富的描述性上下文。(ii)我们开发了集成了动态路由机制和时空投影器的强大架构设计,以便根据用户查询高效地检索和处理相关的视频片段。我们的框架通过允许根据查询精确识别和检索相关的视频片段来减轻当前视频大型语言模型的局限性,从而提高生成响应的上下文相关性。通过大量的实验,SALOVA证明了其在处理复杂的长篇视频方面的增强能力,显示出在扩展序列中保持上下文完整性的显著能力。
由于部分面部区域缺失或变形,低质量人脸图像的识别仍然是一个挑战。对于以部分面部区域缺失为主的低质量图像,局部区域相似性对人脸识别 (FR) 的贡献更大。相反,在局部人脸变形为主的情况下,过度关注局部区域可能会导致误判,而全局特征则表现出更好的鲁棒性。然而,大多数现有人脸识别方法都忽略了不同因素引入的低质量图像特征质量偏差。为了解决这个问题,我们提出了一种基于特征质量的局部和全局特征注意力融合 (LGAF) 网络。该网络根据特征质量自适应地分配局部和全局特征之间的注意力,并通过局部和全局信息的互补获得更具判别性和高质量的人脸特征。此外,为了有效地获得不同尺度的细粒度信息,并提高高维空间中人脸特征的可分离性,我们引入了一个多头多尺度局部特征提取 (MHMS) 模块。实验结果表明,LGAF 在 4 个验证集 (CFP-FP、CPLFW、AgeDB 和 CALFW) 上取得了最佳平均性能,并且在 TinyFace 和 SCFace 上的性能优于最先进的方法 (SoTA)。
基于Transformer的大型语言模型(LLM)随着模型规模的不断增长取得了显著成功,但由于巨大的计算和内存需求,其部署仍然面临挑战。量化已成为一种有前景的解决方案,而最先进的LLM量化算法引入了混合精度矩阵乘法(mpGEMM)的需求,其中低精度权重与高精度激活值相乘。尽管它具有优势,但当前的硬件加速器(如GPU和TPU)缺乏对高效mpGEMM的原生支持,导致主顺序循环中的去量化操作效率低下。为了解决这一限制,我们引入了MixPE,这是一种专门用于LLM推理中高效低比特量化的混合精度处理单元。MixPE利用两项关键创新来最大限度地减少去量化开销并释放低比特量化的全部潜力。首先,认识到比例因子和零点在每个量化组内共享,我们建议在每个组的mpGEMM之后执行去量化,从而显著减少去量化开销。其次,MixPE不依赖于传统的乘法器,而是利用高效的移位和加法运算进行乘法运算,从而优化计算和能效。我们的实验结果表明,MixPE比最先进的量化加速器提高了2.6倍的速度和1.4倍的能效。
基于脑电图 (EEG) 数据诊断精神疾病时,诸如 Transformer 等神经网络模型已被用于捕捉时间动态。此外,学习脑电图传感器之间的空间关系至关重要,为此通常使用图神经网络 (GNN)。然而,同时微调大型复杂神经网络模型以捕捉时间和空间特征会由于可训练参数数量的增加而导致计算成本增加。这导致用于下游任务的脑电图数据集可用性有限,使得有效微调大型模型极具挑战性。我们提出了一种参数高效微调 (PEFT) 方法 EEG-GraphAdapter (EGA) 来应对这些挑战。EGA 集成到预训练的时间骨干模型中,作为一个基于 GNN 的模块,并单独进行微调,同时保持骨干模型参数不变。这使得能够获取用于下游任务的脑电信号的空间表示,从而显著降低计算开销和数据需求。在针对重度抑郁症和异常检测的医疗保健相关下游任务上的实验评估表明,与骨干 BENDR 模型相比,我们的 EGA 将 F1 分数的性能提高了高达 16.1%。
基于单一目标说话人语音实现的一对一语音转换方法,能够在仅使用单个目标说话人语音的情况下实现任意两个说话人之间的语音转换。现有的方法通常依赖于复杂的架构和预训练的说话人验证模型来提高转换语音的保真度。最近利用K均值量化(KQ)和自监督学习(SSL)特征的研究证明能够捕捉语音中的内容信息。然而,它们往往难以保持说话风格的变化,例如韵律细节和语音变化,尤其是在码本较小的情况下。在这项工作中,我们提出了一种简单而有效的一对一语音转换模型,该模型利用了SSL特征和语音属性的特性。我们的方法解决了说话风格变化丢失的问题,能够仅通过重建损失进行训练就实现高保真语音转换,而无需外部说话人嵌入。我们在6个评价指标上展示了我们模型的性能,结果突出了说话风格变化补偿方法的优势。
计算机视觉任务,例如目标检测和分割,依赖于大量准确标注数据集的可用性。在这项工作中,我们提出了CIA,一个模块化流程,用于:(1) 使用稳定扩散模型生成合成图像以增强数据集;(2) 使用定义的质量指标过滤掉低质量样本;(3) 使用精确的提示和ControlNet强制生成图像中存在特定模式。为了展示CIA如何用于搜索训练数据的最佳增强流程,我们研究了数据受限场景下的人体目标检测,在COCO和Flickr30k数据集上使用YOLOv8n。我们使用CIA生成的图像取得了显著的改进,接近于将数据集中的真实图像数量翻倍所获得的性能。我们的研究结果表明,我们的模块化框架可以显著增强目标检测系统,并使未来在数据受限场景下的研究成为可能。该框架可在以下地址获取:github.com/multitel-ai/CIA。
利用预训练模型结合定制提示进行上下文学习已被证明在自然语言处理任务中非常有效。在此成功的基础上,最近的研究将类似的方法应用于“单次”框架内的分割任何模型 (SAM),其中只使用单个参考图像及其标签。然而,这些方法在医学领域面临局限性,这主要是由于 SAM 对于视觉提示的基本要求以及过度依赖像素相似性来生成它们。这种依赖性可能导致 (1) 提示生成不准确和 (2) 点提示聚类,从而导致次优结果。为了解决这些挑战,我们引入了 **Med-PerSAM**,这是一种针对医学领域的新颖且简单的单次框架。Med-PerSAM 只使用视觉提示工程,并且由于我们新颖的自动化提示生成过程,无需额外训练预训练的 SAM 或人工干预。通过将我们轻量级的基于翘曲的提示微调模型与 SAM 集成,我们能够提取和迭代细化视觉提示,从而增强预训练 SAM 的性能。这项进步在医学领域尤其意义重大,因为在医学领域,为缺乏医学专业知识的个人创建视觉提示带来了显著挑战。我们的模型在各种二维医学影像数据集上优于各种基础模型和以前的基于 SAM 的方法。