情感识别通过人工智能和对物理及生理信号的智能感知(情感计算)在准确率、推理时间和用户无关模型方面取得了非常有趣的成果。从这个意义上说,与人们的安全和福祉(性侵犯、基于性别的暴力、儿童和老人虐待、心理健康等)相关的应用需要进一步改进。情感检测应该通过快速、离散、非奢侈的系统在实时和现实生活中进行(可穿戴设备、无线通信、电池供电)。此外,人们对暴力的情绪反应并不相同。因此,大型通用模型不能应用于多人系统来保护人员,而定制的简单人工智能模型将受到医疗保健和社会工作者以及执法人员的欢迎。这些定制模型将适用于在对外部刺激的情绪反应方面具有相似性的群体。这种定制需要几个步骤:创建具有相似行为的群体,为每个群体创建人工智能模型,不断使用新数据更新这些模型,并在需要时将新成员纳入群体。本文介绍了一种对收集的数据(物理和生理数据以及情感标签)进行聚类的方法,以及在生成人工智能模型后包含新成员的方法。实验结果表明,与通用模型相比,准确率提高了 4%,f1 分数提高了 3%,可变性降低了 14%。
生成式预训练模型的快速发展正在推动技术进步从聊天机器人等基本应用向更复杂的基于代理的系统转变。将 6G 系统与大型语言模型 (LLM) 代理和数字孪生 (DT) 的副驾驶相结合,以管理具有诸如原生 AI 服务和传感等新兴功能的高度复杂通信系统,具有巨大的潜力和必要性。通过 6G 导向的代理,基站可以理解各种动态上层任务的传输需求,自动编排最佳系统工作流程。通过不断从 6G DT 获取反馈进行强化,代理最终可以相应地提高实际系统的性能。与为通用应用而设计的现有 LLM 代理不同,6G 导向的代理旨在利用大量的额外专家知识进行高度严格和精确的规划,这不可避免地需要从模型训练到实现的特定系统设计。本文提出了一种构建面向任务的 6G LLM 代理的新颖综合方法。我们首先提出了一种两阶段的持续预训练和微调方案,以构建满足各种应用场景需求的领域基础模型和专业专家模型的多样性。此外,提出了一种基于语义检索的新颖推理框架,用于利用现有的通信相关功能。示例任务(例如物理层任务分解)的实验结果表明了所提出的范式的可行性和有效性。
在众多自然语言处理任务中,大型语言模型 (LLM) 已取代传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
使用 StyleGAN 进行可控生成通常需要使用带标签的数据训练模型。然而,对于音频纹理来说,目前缺乏大型语义标签数据集。因此,为了控制生成,我们开发了一种方法,在没有此类标签数据集的情况下,对无条件训练的 StyleGAN 进行语义控制。在本文中,我们提出了一种基于示例的框架,以根据用户定义的语义属性确定音频纹理生成的引导向量。我们的方法利用了无条件训练的 StyleGAN 的语义解耦潜空间。通过使用一些合成示例来指示语义属性的存在或不存在,我们推断出 StyleGAN 潜空间中的引导向量,以便在生成过程中控制该属性。我们的结果表明,我们的框架可以找到用户定义的和感知相关的引导向量,用于音频纹理的可控生成。此外,我们展示了我们的框架在其他任务中的应用,例如选择性语义属性转移。
本文提出了一种数据驱动的方法来训练一个生成对抗网络(GAN),该网络以从目标音频纹理类别训练的音频分类器倒数第二层中提取的“软标签”为条件。我们证明了在这些条件或控制向量之间插值可以实现生成的音频纹理之间的平滑变形,并且与最先进的方法相比,展现出类似或更好的音频纹理变形能力。所提出的方法导致了一个组织良好的潜在空间,该空间生成新颖的音频输出,同时与条件参数的语义保持一致。这朝着设计具有自定义控制的生成式音频模型的通用数据驱动方法迈出了一步,该模型能够遍历分布外区域以进行新颖的声音合成。
检索增强生成 (RAG) 是开放域问答 (ODQA) 的一项最新进展。RAG 仅在基于维基百科的外部知识库上进行训练和探索,并未针对医疗保健和新闻等其他专业领域进行优化。本文评估了 RAG 的检索器和生成器组件联合训练对 ODQA 中领域自适应任务的影响。我们提出了 *RAG-end2end*,它是 RAG 的扩展,可以通过在训练过程中更新外部知识库的所有组件来适应特定领域的知识库。此外,我们还引入了一种辅助训练信号来注入更多特定领域的知识。这种辅助信号迫使 *RAG-end2end* 通过访问外部知识库中的相关信息来重建给定句子。我们的新贡献不同于 RAG,RAG-end2end 对检索器和生成器进行联合训练,以完成最终的 QA 任务和领域自适应。我们使用来自三个领域的数据集对我们的方法进行了评估:COVID-19、新闻和对话,与原始 RAG 模型相比,取得了显著的性能改进。我们的工作已通过 Huggingface Transformers 库开源,证明了我们工作 的可信度和技术一致性。
本文阐述了如何以端到端的方式微调检索增强生成(RAG)架构。我们重点介绍了实现这一目标需要解决的主要工程挑战。我们还比较了端到端 RAG 架构在问答任务中的表现,发现它优于原始 RAG 架构。我们已将我们的实现开源在 HuggingFace Transformers 库中。
从语音中识别多模态情感是情感计算中的一个重要领域。融合多种数据模态并在有限的标注数据下学习表示是一个具有挑战性的任务。本文探索了使用特定模态的“BERT类”预训练自监督学习(SSL)架构来表示语音和文本模态,以用于多模态语音情感识别任务。通过对三个公开数据集(IEMOCAP、CMU-MOSEI 和 CMU-MOSI)进行实验,我们表明,联合微调“BERT类”SSL 架构可以取得最先进 (SOTA) 的结果。我们还评估了两种语音和文本模态融合方法,并表明当使用与 BERT 具有相似架构属性的 SSL 模型时,简单的融合机制可以胜过更复杂的融合机制。
多模态大型语言模型 (MLLMs) 正在改变图形用户界面 (GUI) 代理的能力,促进它们从受控模拟过渡到跨各种平台的复杂现实世界应用。然而,这些代理的有效性取决于其接地能力的稳健性。目前的 GUI 代理主要利用基于文本的表示,例如 HTML 或可访问性树,尽管它们有用,但通常会引入噪声、不完整性和增加的计算开销。在本文中,我们主张为 GUI 代理提供一种类似人类的具身形式,该形式完全以视觉方式感知环境,并直接对 GUI 上的像素级操作进行操作。关键是视觉接地模型,该模型可以将 GUI 元素的各种指代表达式准确地映射到跨不同平台的 GUI 上的坐标。我们表明,一个简单的配方,包括基于网络的合成数据和对 LLaVA 架构的轻微调整,对于训练这种视觉接地模型出奇地有效。我们收集了迄今为止最大的 GUI 视觉接地数据集,包含 1000 万个 GUI 元素及其在 130 万张屏幕截图上的指代表达式,并使用它来训练 UGround,这是一种用于 GUI 代理的强大的通用视觉接地模型。在跨越三个类别(接地、离线代理和在线代理)的六个基准上的实证结果表明:1) UGround 在 GUI 代理的现有视觉接地模型中显著优于现有模型,绝对值高达 20%,以及 2) 具有 UGround 的代理优于最先进的代理,尽管现有代理使用额外的基于文本的输入,而我们的代理仅使用视觉感知。这些结果为 GUI 代理以人类的方式浏览数字世界的可行性和前景提供了强有力的支持。
最近的研究探索了使用大型语言模型(LLM)来解决复杂的图推理任务。然而,由于图结构的复杂性和LLM在处理长文本方面的固有局限性,当前的方法往往无法在小规模图和简单任务上取得令人满意的准确性。为了解决这些挑战,我们引入了GraphAgent-Reasoner,这是一个免微调框架,它利用多智能体协作策略来进行明确而精确的图推理。受分布式图计算理论的启发,我们的框架将图问题分解成更小的、以节点为中心的子任务,这些子任务分配给多个智能体。这些智能体协作以解决整个问题,显著减少了单个LLM处理的信息量和复杂度,从而提高了图推理的准确性。通过简单地增加智能体的数量,GraphAgent-Reasoner可以有效地扩展以适应具有超过1,000个节点的大型图。在GraphInstruct数据集上的评估表明,我们的框架在多项式时间图推理任务上表现出近乎完美的准确性,显著优于现有的最佳模型,包括闭源和微调的开源变体。我们的框架还展示了处理现实世界图推理应用的能力,例如网页重要性分析。