本文探讨了动态知识图谱中异常检测的不同方法,特别是在 Kubernetes 应用程序的微服务环境中。我们的方法探索了三种动态知识图谱表示:序列数据、一跳图结构和二跳图结构,每种表示都包含越来越复杂的结构信息。每个阶段都包含不同的机器学习和深度学习模型。我们对它们的表现进行了实证分析,并提出了一种基于这些模型集成学习的方法。我们的方法在 ISWC 2024 动态知识图谱异常检测数据集上的表现明显优于基线,为动态复杂数据中的异常检测提供了一种稳健的解决方案。
大量电力时间序列 (ETS) 数据的出现为电力系统中的各种应用提供了充足的机会,包括需求侧管理、电网稳定性和消费者行为分析。深度学习模型通过有效地捕获序列依赖性,推动了 ETS 建模的进步。然而,由于 ETS 数据的固有复杂层次结构,学习 ETS 数据的通用表示以用于各种应用仍然具有挑战性。此外,ETS 数据表现出复杂的时序依赖性,并且容易受到外生变量的影响。此外,不同的实例表现出不同的电力消耗行为。在本文中,我们提出了一种基础模型 PowerPM 来对 ETS 数据进行建模,为电力系统提供了一个大规模的现成模型。PowerPM 包含一个时序编码器和一个层次编码器。时序编码器捕获 ETS 数据中的时序依赖性,同时考虑外生变量。层次编码器对层次之间的相关性进行建模。此外,PowerPM 利用一种新颖的自监督预训练框架,该框架包括掩蔽 ETS 建模和双视图对比学习,这使得 PowerPM 能够捕获 ETS 窗口内的时序依赖性,并了解 ETS 窗口之间的差异,从而提供两种不同的视角来学习通用表示。我们的实验涉及五个真实世界场景数据集,包括私有数据和公共数据。通过在海量 ETS 数据上进行预训练,PowerPM 在私有数据集中的各种下游任务上实现了 SOTA 性能。令人印象深刻的是,当迁移到公共数据集时,PowerPM 保持了其优越性,展示了其在各种任务和领域中的显著泛化能力。此外,消融研究、少样本实验为我们模型的有效性提供了更多证据。
在可穿戴智能系统中,持续监测和准确分类不同的睡眠相关状况对于提高睡眠质量和预防睡眠相关慢性疾病至关重要。然而,脑电睡眠监测系统对设备-皮肤耦合质量的要求阻碍了夜间佩戴的舒适性和可靠性。在这里,我们报道了一种可洗涤、皮肤相容的智能服装睡眠监测系统,该系统可以在弱设备-皮肤耦合条件下捕获局部皮肤应变信号,无需定位或皮肤准备要求。基于印刷纺织品的应变传感器阵列对 0.1% 到 10% 的应变做出响应,其应变计系数高达 100,并通过应变隔离的印刷图案设计显示出对外部运动伪影的独立性。通过可逆的浆洗处理,控制直接印刷在服装上的油墨渗透深度,以实现批次间性能变化小于 10%。结合深度学习、可解释人工智能 (XAI) 和迁移学习数据处理,智能服装能够以 98.6% 的准确率对六种睡眠状态进行分类,在实际应用中保持良好的可解释性(低偏差分类)和泛化性(在少数样本学习中对新用户具有 95% 的准确率,每类样本少于 15 个),为下一代日常睡眠健康管理铺平了道路。
大型语言模型(LLM)彻底改变了自然语言处理领域,在各种应用中取得了前所未有的性能。然而,它们不断增长的计算和内存需求带来了巨大的挑战,尤其是在处理长序列时。本文重点关注长上下文场景,解决推理过程中 KV 缓存内存消耗的低效问题。与根据序列长度优化内存的现有方法不同,我们发现 KV 缓存的通道维度中存在大量冗余,这由注意力权重的不均匀幅度分布和低秩结构所表明。针对这一问题,我们提出了 ThinK,一种新颖的查询依赖 KV 缓存剪枝方法,旨在最大程度地减少注意力权重损失,同时选择性地剪枝最不重要的通道。我们的方法不仅保持或提高了模型精度,而且与传统的 KV 缓存驱逐和量化方法相比,将 KV 缓存内存成本降低了 20% 以上。例如,与 KIVI 集成的 ThinK 可以将峰值内存使用量减少 2.8 倍,同时保持几乎相同的质量,在使用单个 GPU 时将批次大小提高 5 倍。对 LLaMA 和 Mistral 模型在各种长序列数据集上的广泛评估验证了 ThinK 的效率,为高效的 LLM 部署建立了新的基准算法,而不会影响性能。
具身人工智能代表着将人工智能集成到物理实体中的系统,使它们能够感知并与其周围环境交互。大型语言模型(LLM)表现出强大的语言理解能力,已广泛应用于具身人工智能,以促进复杂的任务规划。然而,一个关键的安全问题被忽视了:这些具身 LLM 会不会犯下有害行为?针对这个问题,我们引入了 BadRobot,一种新颖的攻击范式,旨在通过典型的语音交互使具身 LLM 违反安全和道德约束。具体而言,利用了三种漏洞来实现这种攻击:(i)操纵机器人系统中的 LLM,(ii)语言输出与物理动作之间的错位,以及(iii)由于世界知识缺陷导致的无意有害行为。此外,我们构建了各种恶意物理动作查询的基准,以评估 BadRobot 的攻击性能。基于此基准,针对现有突出具身 LLM 框架(例如,Voxposer、Code as Policies 和 ProgPrompt)的大量实验表明了 BadRobot 的有效性。警告:本文包含有害的人工智能生成的语言和攻击性行为。
重度抑郁症(MDD)是一种普遍的精神健康状况,影响着全球3亿人。本研究提出了一种基于双向长短期记忆网络(BiLSTM)的三模态模型级融合架构,用于从临床访谈录音中进行抑郁症的二元分类。该架构整合了梅尔频率倒谱系数(MFCC)、面部动作单元(FAU)以及使用两阶段学习的GPT-4模型来处理文本数据。这是首个将大型语言模型融入多模态架构以解决此任务的研究。该模型在DAIC-WOZ AVEC 2016挑战赛的交叉验证分割和留一主体外交叉验证分割上取得了令人印象深刻的结果,超过了所有基线模型和多个最先进的模型。在留一主体外测试中,该模型的准确率为91.01%,F1分数为85.95%,精确率为80%,召回率为92.86%。
大型语言模型通过利用海量文本数据的自监督预训练,彻底改变了自然语言处理领域。受此成功的启发,研究人员探索了复杂的语音标记化方法,将连续语音信号离散化,以便将语言建模技术应用于语音数据。然而,现有的方法要么对语义(内容)标记进行建模,可能丢失声学信息,要么对声学标记进行建模,可能丢失语义(内容)信息。多种标记类型还会使架构变得复杂,并需要额外的预训练。本文表明,将梅尔滤波器组通道离散化为离散强度 bin 可以生成一种简单表示(dMel),其性能优于其他现有的语音标记化方法。使用用于语音-文本建模的 LM 风格的 Transformer 架构,我们对语音识别 (ASR) 和语音合成 (TTS) 中的不同语音标记化方法进行了全面评估。我们的结果证明了 dMel 在统一框架内实现两种任务的高性能的有效性,为高效且有效的语音和文本联合建模铺平了道路。
大型语言模型(LLM)的强大能力引发了人们的争论,这些模型究竟是真正地泛化到未见过的任务,还是主要依赖于记忆大量预训练数据。为了探讨这个问题,我们引入了记忆的扩展概念,即分布式记忆,它衡量了LLM输出概率与预训练数据频率之间的相关性。为了有效地捕获特定任务的预训练数据频率,我们提出了一种新颖的任务语法语言模型,该模型通过统计预训练语料库中任务输入和输出中语义相关的n-gram对的共现次数来构建。使用在Pile数据集上训练的Pythia模型,我们评估了三个不同的任务:机器翻译、事实问答和推理。我们的发现揭示了不同程度的记忆,在事实问答中观察到最强的影响。此外,虽然模型性能在所有任务中随着LLM规模的增加而提高,但只有事实问答显示出记忆的增加,而机器翻译和推理任务则表现出更大的泛化能力,产生更多新颖的输出。这项研究表明,记忆在更简单、更依赖知识的任务中发挥着更大的作用,而泛化是更难、更依赖推理的任务的关键,为更深入地分析大型预训练语料库提供了一种可扩展的方法。
基于检索增强生成的问答 (RAG-QA) 是自然语言处理领域的重要研究课题,在现实世界中有着广泛的应用。然而,现有的用于此任务的大多数数据集要么使用单个源语料库构建,要么包含简短的抽取式答案,这不足以评估基于大型语言模型 (LLM) 的 RAG-QA 系统在跨域泛化方面的性能。为了解决这些局限性,我们创建了长篇鲁棒问答 (LFRQA) 数据集,该数据集包含人类撰写、将来自多个文档的简短抽取式答案整合到一个连贯的叙述中的长篇答案,涵盖 26,000 个查询和跨越七个不同领域的庞大语料库。我们进一步提出了 RAG-QA 竞技场,通过使用 LLM 作为评估器,直接比较模型生成的答案与 LFRQA 的答案。我们通过大量实验表明,RAG-QA 竞技场和人类对答案质量的判断高度相关。此外,只有 41.3% 的最具竞争力的 LLM 答案优于 LFRQA 的答案,这表明 RAG-QA 竞技场是一个具有挑战性的评估平台,可用于未来的研究。
拒绝训练被广泛用于防止大型语言模型 (LLM) 生成有害、不可取或非法的输出。我们揭示了当前拒绝训练方法中一个奇怪的泛化差距:将有害请求简单地改写成过去时(例如,将“如何制作燃烧瓶?”改为“人们是如何制作燃烧瓶的?”)通常足以破解许多最先进的 LLM。我们使用 GPT-3.5 Turbo 作为改写模型,系统地评估了这种方法在 Llama-3 8B、Claude-3.5 Sonnet、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o mini、GPT-4o、o1-mini、o1-preview 和 R2D2 模型上的效果。例如,这种简单攻击对 GPT-4o 的成功率从使用直接请求的 1% 提高到使用 GPT-4 作为破解判定器,对 JailbreakBench 中的有害请求进行 20 次过去时改写尝试后的 88%。有趣的是,我们还发现,未来时的改写效果较差,这表明拒绝护栏往往认为过去的历史问题比假设的未来问题更安全。此外,我们对 GPT-3.5 Turbo 微调的实验表明,当在微调数据中明确包含过去时示例时,防御过去时改写是可行的。总的来说,我们的发现表明,用于对所研究模型进行对齐的广泛使用的对齐技术(如 SFT、RLHF 和对抗性训练)可能是脆弱的,并不总是像预期那样泛化。我们在 https://github.com/tml-epfl/llm-past-tense 提供代码和破解工件。