LLM2D

arXiv 论文列表

我们提出了 FEIM-TTS,这是一种创新的零样本文本到语音 (TTS) 模型,它能够合成与面部图像对齐并受情绪强度调制的富有情感表达的语音。FEIM-TTS 利用深度学习超越了传统的 TTS 系统,通过解释面部线索并在没有依赖标记数据集的情况下适应情绪细微差别。为了解决稀疏的音频-视觉-情绪数据问题,该模型使用 LRS3、CREMA-D 和 MELD 数据集进行训练,证明了其适应性。FEIM-TTS 独特的能力,能够生成高质量的、与说话者无关的语音,使其适用于为虚拟角色创建适应性强的语音。此外,FEIM-TTS 显着提高了视障人士或有视力障碍人士的可访问性。通过将情绪细微差别融入 TTS,我们的模型为网络漫画创造了动态且引人入胜的听觉体验,使视障用户能够更充分地享受这些叙事。综合评估证明了它在调节情绪和强度方面的熟练程度,推动了情感语音合成和可访问性的发展。样本可在以下网站获取:https://feim-tts.github.io/。
发布时间: 9/25/2024
查看原文
许多研究致力于为具有函数逼近的上下文多臂老虎机开发无悔算法,其中上下文-动作对的平均奖励属于一个函数类。虽然解决这个问题的方法很多,但基于乐观原则的算法(例如乐观最小二乘法)越来越受到重视。可以证明,该算法的遗憾与逃避维数(函数类复杂度的统计度量)、函数类大小的对数和时间范围的乘积的平方根成正比。不幸的是,即使每次奖励测量噪声的方差在变化并且非常小,乐观最小二乘算法的遗憾仍然与时间范围的平方根成正比。在这项工作中,我们首次开发了算法,在未知方差的情况下,具有函数逼近的上下文多臂老虎机设置中,其遗憾界限不随时间范围的平方根成比例,而是随测量方差之和的平方根成比例。这些界限推广了在上下文线性问题中推导二阶界限的现有技术。
发布时间: 9/25/2024
查看原文
物联网 (IoT) 与网络物理系统 (CPS) 的集成扩大了其网络攻击面,引入了新的、复杂的威胁,并有可能利用新出现的漏洞。由于网络安全知识不完整且过时,评估 CPS 的风险越来越困难。这突出了对更明智的风险评估和缓解策略的迫切需求。虽然以前的工作依赖于基于规则的自然语言处理 (NLP) 工具来映射漏洞、弱点和攻击模式,但大型语言模型 (LLMs) 的最新进展为通过改进的推理、推断和摘要能力来增强网络攻击知识完成提供了独特的机会。我们应用嵌入模型来封装攻击模式和对抗技术的相关信息,使用向量嵌入生成它们之间的映射。此外,我们提出了一种基于检索增强生成 (RAG) 的方法,该方法利用预训练模型来创建不同威胁模式分类之间结构化的映射。此外,我们使用一个小型手工标记数据集来比较所提出的基于 RAG 的方法与基线标准二元分类模型。因此,所提出的方法提供了一个全面的框架来解决网络攻击知识图完成的挑战。
发布时间: 9/25/2024
查看原文
低秩自适应(LoRA)因其模块化设计和在 Huggingface 等平台上的广泛可用性,已成为微调大型语言模型(LLM)以适应各种领域的一种流行技术。这种模块化特性激发了人们对组合多个 LoRA 以增强 LLM 能力的兴趣。然而,现有的 LoRA 组合方法主要集中在需要额外训练的任务特定自适应上,而当前的模型合并技术往往无法充分利用 LoRA 的模块化特性,导致参数干扰和性能下降。在本文中,我们研究了以更细粒度的方式拆解和重新组装多个 LoRA 的可行性,类似于组装乐高积木。我们引入了最小语义单元 (MSU) 的概念,其中对应于 LoRA 中每个秩的参数充当独立单元。这些 MSU 表现出置换不变性和连接求和等价性,从而实现灵活的组合以创建新的 LoRA。基于这些见解,我们提出了 LoRA-LEGO 框架。该框架通过将来自不同 LoRA 的 MSU 分组到 $k$ 个集群中来进行秩级参数聚类。每个集群的中心充当代表性 MSU,从而能够组装一个具有 $k$ 个调整秩的合并 LoRA。此外,我们应用了一种双重加权策略来优化合并 LoRA 的规模。在各种基准上的实验表明,我们的方法在 LoRA 合并方面优于现有方法。
发布时间: 9/25/2024
查看原文
人类视觉系统经过良好调校,可以检测各种形状和大小的面孔。虽然这带来了明显的生存优势,例如在灌木丛中发现未知捕食者的机会更大,但也导致了虚假的检测。 “面孔幻想症”描述了在其他随机刺激中感知到面孔状结构:在咖啡渍或天空中看到面孔。 在本文中,我们从计算机视觉的角度研究了面孔幻想症。 我们提供了一个名为“物中面孔”的图像数据集,包含五千张带有经过人工标注的幻想症面孔的网络图像。 使用这个数据集,我们检验了最先进的人脸检测器在多大程度上表现出幻想症,发现人类和机器之间存在显著的行为差距。 我们发现人类需要检测动物面孔以及人类面孔的进化需求可能解释了部分差距。 最后,我们提出了一个简单的图像幻想症统计模型。 通过对人类受试者和我们幻想症面孔检测器的研究,我们证实了我们模型关于最有可能诱发幻想症的图像条件的关键预测。 数据集和网站:https://aka.ms/faces-in-things
发布时间: 9/25/2024
查看原文
开放词汇目标检测 (OVD) 模型因其广泛的训练数据和大量参数而被认为是大型多模态模型 (LMM)。主流 OVD 模型优先考虑对象的粗粒度类别,而不是关注其细粒度属性,例如颜色或材质,因此无法识别具有特定属性的物体。然而,OVD 模型是在包含丰富属性词的大规模图像-文本对上进行预训练的,其潜在特征空间可以将全局文本特征表示为细粒度属性标记的线性组合,而不会突出显示它们。因此,本文提出了一种针对冻结的主流 OVD 模型的通用且明确的方法,通过在显式线性空间中突出显示细粒度属性来提高其属性级检测能力。首先,利用 LLM 将输入文本中的属性词作为零样本提示任务突出显示。其次,通过战略性地调整标记掩码,OVD 模型的文本编码器提取全局文本和属性特定特征,然后在线性空间中显式地将它们组合成两个向量,以形成用于检测任务的新属性突出特征,其中相应的标量是手工制作或学习的,以重新加权这两个向量。值得注意的是,这些标量可以在不同的 OVD 模型之间无缝转移,这证明这种显式线性组合是通用的。在 FG-OVD 数据集上的实证评估表明,我们提出的方法统一地提高了各种主流模型的细粒度属性级 OVD,并取得了新的最先进的性能。
发布时间: 9/25/2024
查看原文
大型语言模型 (LLM) 在众多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法……
发布时间: 9/25/2024
查看原文
语音记录越来越多地被用于疾病的检测和监测,这引发了隐私问题。除了密码学,还可以通过扰动、解耦和重新合成等方法来保护语音,这些方法可以消除说话者的敏感信息,保留用于医疗分析目的的信息。为了开发这种隐私保护方法,需要明确和系统地规定关于医疗环境和医疗专业人员需求的假设。在本文中,我们提出了一种使用场景方案,该方案包含攻击者模型,该模型描述了必须防御的攻击者,以及保护者模型,该模型规定了防御措施。我们讨论了该方案与之前关于语音隐私工作的联系。最后,我们提供了一个具体的使用场景示例和一组关于在保持帕金森病检测效用的同时保护说话者数据免受性别推断攻击的实验。
发布时间: 9/25/2024
查看原文
近年来,无人机检测已迅速成为一个备受关注的领域:体积有限的快速移动物体可能被用于恶意意图甚至恐怖袭击,这使得人们越来越重视开发精确且稳健的系统来检测和识别此类物体。虽然基于 RGB 数据的目标检测方面存在大量文献和研究成果,但必须认识到这种模式应用于无人机检测时的局限性。无人机检测确实面临着一些挑战,例如快速移动的物体和动态范围很大的场景,甚至更糟糕的是,照明水平不足。另一方面,神经形态相机可以在对 RGB 相机来说具有挑战性的情况下保留精确且丰富的时间空间信息。它们对高速移动物体和照明不足的环境具有鲁棒性,但在场景中的物体静止时容易造成信息快速丢失。在这种情况下,我们提出了一种将这两个领域整合在一起的新模型,利用多模态数据来充分利用两者的优势。为此,我们还发布了 NeRDD(神经形态-RGB 无人机检测)数据集,这是一个新颖的时间空间同步事件-RGB 无人机检测数据集,包含超过 3.5 小时的多模态标注记录。
发布时间: 9/25/2024
查看原文
移动医疗有潜力彻底改变医疗保健的提供和患者参与。本文探讨了如何将人工智能整合到以供应链、患者管理和能力建设等用例为中心的数字健康应用中,从而改善卫生系统和公共卫生绩效。我们提出了一个人工智能和强化学习平台,该平台允许提供自适应干预措施,其影响可以通过实验和实时监控进行优化。该系统可以整合多个数据源和数字健康应用程序。该平台连接到各种移动健康应用程序和数字设备并根据过去数据和预测发送个性化建议的灵活性可以显着提高数字工具对卫生系统结果的影响。本文专门讨论了资源匮乏环境的潜力,在这种环境中,这种方法对健康结果的影响可能更为决定性。然而,该框架同样适用于提高医疗系统效率,即使资源短缺不是问题。
发布时间: 9/25/2024
查看原文