arXiv:2405.00726v2 公告类型: 替换-交叉 摘要: 近年来,利用脑电图(EEG)将脑活动转化为文本的技术引起了广泛关注。许多研究人员致力于开发新的模型,以将EEG信号解码为文本形式。尽管这一领域已显示出有希望的发展,但仍面临诸多挑战,需要进一步改进。明确这一领域的最新进展和未来研究方向至关重要。在这篇综述文章中,我们全面总结了EEG到文本转换的进展。首先,我们讨论了EEG到文本技术的发展历程以及我们仍面临的问题。其次,我们探讨了该领域现有的技术,包括EEG数据的采集方法、信号处理步骤以及能够将这些信号转化为连贯文本的系统开发。最后,我们提出了潜在的未来研究方向,强调提高准确性、减少系统限制以及探索跨多个领域的新应用的重要性。通过解决这些方面,本综述旨在为开发更易用、更有效的脑机接口(BCI)技术,以惠及更广泛的用户群体做出贡献。
多标签识别(MLR)涉及在图像中识别多个对象。为了解决这一问题的额外复杂性,最近的研究利用了在大规模文本-图像数据集上训练的视觉-语言模型(VLM)的信息。这些方法为每个对象(类别)学习一个独立的分类器,忽略了它们出现之间的相关性。这种共现关系可以从训练数据中作为类别对之间的条件概率来捕捉。我们提出了一种框架,通过结合对象对的共现信息来扩展独立分类器,以提高其性能。我们使用图卷积网络(GCN)来强化类别之间的条件概率,通过细化从VLM获取的图像和文本源得出的初始估计。我们在四个MLR数据集上验证了我们的方法,结果表明我们的方法优于所有最先进的方法。
arXiv:2404.15676v2 公告类型: 替换-交叉 摘要: 思维链(Chain-of-Thought, CoT)作为一种广泛采用的提示方法,激发了大语言模型(LLMs)的显著推理能力。受CoT的顺序思维结构的启发,一系列名为Chain-of-X(CoX)的方法被开发出来,以应对涉及LLMs的各个领域和任务中的各种挑战。本文对不同背景下LLMs的Chain-of-X方法进行了全面的综述。具体而言,我们根据节点分类法,即CoX中的X,以及应用任务对这些方法进行了分类。我们还讨论了现有CoX方法的发现和启示,以及潜在的未来发展方向。我们的综述旨在为寻求将CoT概念应用于更广泛场景的研究人员提供详细且最新的资源。
arXiv:2404.08064v4 Announce Type: replace-cross 摘要: 将语音整合到医疗保健中加剧了隐私问题,因为语音作为包含个人生物识别信息的非侵入性生物标志物具有潜在价值。为此,说话人匿名化旨在隐藏个人身份信息的同时保留关键的语言内容。然而,将匿名化技术应用于病理性语音,这一隐私尤为重要的领域,尚未得到广泛研究。本研究调查了匿名化对来自多个德国机构的2700多名病理性语音的影响,重点关注隐私、病理性效用和人口统计公平性。我们探讨了基于深度学习和信号处理的匿名化方法。我们记录了显著的隐私改进——通过等错误率增加高达1933%来证明,对整体效用的影响最小。具体疾病如构音障碍、发声障碍和唇腭裂的效用变化最小,而失语症则显示出轻微改善。我们的研究结果强调,匿名化对不同疾病的影响差异很大。这需要针对特定疾病的匿名化策略,以最佳平衡隐私与诊断效用。此外,我们的公平性分析显示,大多数人口统计群体的匿名化效果一致。本研究展示了匿名化在病理性语音中增强隐私的有效性,同时强调了定制化和针对特定疾病方法的重要性,以应对逆向攻击。
arXiv:2404.04904v2 公告类型: 替换-交叉 摘要: 音频深度伪造检测(ADD)对于防止合成声音的滥用至关重要,这些声音可能侵犯个人权利和隐私。最近的零样本文本到语音(TTS)模型带来了更高的风险,因为它们可以通过单个语音样本克隆声音。然而,现有的ADD数据集已经过时,导致检测模型的泛化能力不佳。在本文中,我们构建了一个新的跨域ADD数据集,包含超过300小时的语音数据,这些数据由五个先进的零样本TTS模型生成。为了模拟真实世界场景,我们采用了多种攻击方法和来自不同数据集的音频提示。实验表明,通过新颖的攻击增强训练,Wav2Vec2-large和Whisper-medium模型分别实现了4.1%和6.5%的等错误率。此外,我们通过仅使用一分钟的目标域数据进行微调,展示了我们模型的卓越少样本ADD能力。然而,神经编解码压缩器极大地影响了检测准确性,需要进一步研究。
我们介绍了Latxa,这是一个用于巴斯克语的大型语言模型系列,参数规模从7亿到700亿不等。Latxa基于Llama 2,我们在一个包含430万份文档和42亿个标记的新巴斯克语语料库上进行了继续预训练。针对巴斯克语高质量基准测试的稀缺性,我们进一步引入了4个多项选择评估数据集:EusProficiency,包含5169个来自官方语言能力考试的问题;EusReading,包含352个阅读理解问题;EusTrivia,包含来自5个知识领域的1715个琐事问题;以及EusExams,包含16774个来自公共考试的问题。在我们的广泛评估中,Latxa在所有我们比较的先前开源模型中表现出色,大幅领先。此外,尽管在阅读理解和知识密集型任务上稍显不足,Latxa在语言能力和理解方面与GPT-4 Turbo相当。Latxa系列模型、我们的新预训练语料库以及评估数据集均在开放许可下公开可用。我们的工具集支持在低资源语言上构建大型语言模型的可重复研究方法。
arXiv:2403.20058v3 公告类型: 替换-交叉 摘要: 同步功能PET/MR(sf-PET/MR)是一种前沿的多模态神经影像技术。它为同时监测和整合由时空协变代谢活动、神经活动和脑血流(灌注)构建的多方面脑网络提供了前所未有的机会。尽管具有高科学/临床价值,但PET/MR设备的硬件可及性不足限制了其应用,更不用说基于现代AI的PET/MR融合模型。我们的目标是开发一种临床可行的基于AI的疾病诊断模型,该模型在全面sf-PET/MR数据上进行训练,具有在推理过程中允许单模态输入(例如,仅PET)以及强制多模态准确性的能力。为此,我们提出了MX-ARM,一种多模态专家混合对齐与重建模型。它是模态可分离和可交换的,通过可学习权重动态分配不同的多层感知器(“专家混合”)来学习不同模态的各自表示。这种设计不会在单模态情况下牺牲模型性能。为了充分利用模态之间固有的复杂和非线性关系,同时为单模态推理生成细粒度表示,我们随后添加了一个模态对齐模块,将主导模态(例如,PET)与辅助模态(MR)的表示对齐。我们进一步采用多模态重建来提升学习特征的质量。在珍贵的多模态sf-PET/MR数据上进行的轻度认知障碍诊断实验展示了我们的模型在临床可行精准医学方面的有效性。
arXiv:2403.19376v3 公告类型: 替换-交叉 摘要: 获取相机视线之外的物体是一个非常有趣但也非常具有挑战性的研究课题。最近的研究表明,利用定制直接飞行时间传感器生成的瞬态成像数据,这一想法是可行的。在本文中,我们首次仅使用现成的间接飞行时间传感器的数据来解决这一问题,无需任何额外的硬件要求。我们引入了一种深度学习模型,能够将光线反弹发生的表面重新构建为虚拟镜面。这种建模使得任务更容易处理,并有助于构建带注释的训练数据。从获得的数据中,可以提取隐藏场景的深度信息。我们还为该任务提供了一个首创的合成数据集,并在其上展示了所提出想法的可行性。
arXiv:2403.09326v3 公告类型: 替换-交叉 摘要: 当前的文本到头像生成方法通常依赖于隐式表示(例如,NeRF、SDF 和 DMTet),导致艺术家难以在图形软件中轻松编辑和动画化的 3D 内容。本文介绍了一种新颖的框架,用于从文本指导生成风格化的头部头像,该框架利用局部可学习的网格变形和 2D 扩散先验来实现高质量的数字资产,以进行属性保留的操作。给定一个模板网格,我们的方法使用每面雅可比矩阵表示网格变形,并使用可学习的向量场自适应地调制局部变形。该向量场在保留顶点旋转的同时实现各向异性缩放,从而更好地表达身份和几何细节。我们采用基于地标和轮廓的正则化项,以平衡从多视角生成头像的表现力和合理性,而不依赖于任何特定的形状先验。我们的框架可以生成逼真的形状和纹理,这些形状和纹理可以通过文本进一步编辑,同时支持使用模板网格中保留的属性(如 3DMM 参数、混合形状和 UV 坐标)进行无缝编辑。广泛的实验表明,我们的框架可以生成多样且富有表现力的头部头像,这些头像具有高质量的网格,艺术家可以在图形软件中轻松操作,从而促进下游应用,如高效的资产创建和属性保留的动画制作。
强化学习(RL)在各种应用中表现出色,使自主代理能够通过与环境的交互学习最优策略。然而,传统的RL框架在迭代复杂性和鲁棒性方面经常面临挑战。风险敏感RL通过平衡预期回报和风险,已被探索其潜在的产生概率鲁棒策略的能力,但其迭代复杂性分析仍未充分探索。在本研究中,我们对风险敏感策略梯度方法进行了彻底的迭代复杂性分析,重点研究了REINFORCE算法并采用了指数效用函数。我们获得了达到$\epsilon$-近似一阶平稳点(FOSP)的迭代复杂性为$\cO(\epsilon^{-2})$。我们探讨了风险敏感算法是否可能比其风险中性对应算法实现更好的迭代复杂性。我们的理论分析表明,风险敏感REINFORCE可能需要较少的迭代次数来收敛。这导致迭代复杂性提高,因为采用指数效用并不需要在每次迭代中增加额外的计算。我们描述了风险敏感算法可能实现更好迭代复杂性的条件。我们的模拟结果也验证了,与风险中性对应算法相比,风险厌恶情况下在41%的回合后可以更快地收敛和稳定。