时间序列子序列异常检测是现实世界中各种应用(从健康监测到 AIOps)的一项重要任务,由于以下原因而极具挑战性:1)如何有效地学习时间序列中复杂的动态和依赖关系;2)异常子序列的多样性和复杂性以及正常模式的固有方差和噪声;3)如何确定用于有效检测的适当子序列长度,这是许多现有算法所需的参数。在本文中,我们提出了一种新颖的子序列异常检测方法,即 GraphSubDetector。首先,它使用一种长度选择机制自适应地学习合适的子序列长度,该机制突出了正常模式和异常模式的特征。其次,我们提出了一种密度感知自适应图神经网络 (DAGNN),它可以通过子序列之间的消息传递,针对正常数据的方差生成更鲁棒的表示,以进行异常检测。实验结果证明了该算法的有效性,与最先进的算法相比,它在多个时间序列异常基准数据集上取得了优越的性能。
鉴于会话式人工智能的进步,大型语言模型 (LLM) 的评估对于确保其在各种会话任务中的最佳性能至关重要。本文对五种流行的LLM(Llama、OPT、Falcon、Alpaca和MPT)的功能和局限性进行了全面的研究评估。该研究涵盖了各种会话任务,包括预约、移情回应生成、心理健康和法律咨询、劝说和谈判。为了进行评估,我们采用了广泛的测试设置,使用了从自动评估到人工评估的多种评估标准,包括使用通用和特定于任务的指标来准确衡量LLM的性能。我们的评估结果表明,没有一个模型能够在所有任务中都表现最佳。相反,它们的性能随具体任务的要求而显著变化。一些模型在某些任务中表现出色,但在其他任务中则表现较差。这些发现强调了在选择最适合会话应用的LLM时,考虑特定任务的要求和特征的重要性。
深度学习理论中的一个关键问题是理解神经网络如何学习分层特征。本研究使用三层神经网络研究了*多个非线性特征*的分层多项式的学习。我们研究了一类广泛的函数,其形式为$f^{\star}=g^{\star}\circ \bp$,其中$\bp:\mathbb{R}^{d} \rightarrow \mathbb{R}^{r}$表示具有$r \ll d$的多个二次特征,而$g^{\star}:\mathbb{R}^{r}\rightarrow \mathbb{R}$是度为$p$的多项式。这可以看作是多指标模型\citep{damian2022neural}的非线性推广,也是先前仅关注单个非线性特征(即$r = 1$)\citep{nichani2023provable,wang2023learning}工作的扩展。我们的主要贡献表明,通过逐层梯度下降训练的三层神经网络足以在$\widetilde{\cO}(d^4)$个样本和多项式时间内实现:\begin{itemize}\item 完全恢复非线性特征所张成的空间\item 有效学习目标函数$f^{\star}=g^{\star}\circ \bp$或具有不同连接函数的$f=g\circ \bp$的迁移学习\end{itemize}对于此类分层目标,我们的结果大大提高了核方法的样本复杂度${\Theta}(d^{2p})$,证明了高效特征学习的能力。重要的是要强调,我们的结果利用了新颖的技术,因此能够超越所有先前设置,例如单指标和多指标模型,以及仅依赖于一个非线性特征的模型,从而有助于更全面地理解深度学习中的特征学习。
尽管文本到图像 (T2I) 生成模型取得了显著进展,但在实际应用场景中,用户往往面临着反复试验的挑战。这种挑战源于繁琐步骤的复杂性和不确定性,例如精心设计合适的提示词、选择合适的模型以及配置特定的参数,导致用户不得不进行费力的尝试才能获得理想的图像。本文提出了一种自动 T2I 生成方法,旨在自动化这些繁琐的步骤,允许用户以自由聊天的方式简单地描述他们的需求。为了系统地研究这个问题,我们首先介绍了 ChatGenBench,这是一个为自动 T2I 设计的新型基准。它具有高质量的配对数据和多样化的自由输入,能够对所有步骤中的自动 T2I 模型进行全面评估。此外,认识到自动 T2I 是一项复杂的多步骤推理任务,我们提出了 ChatGen-Evo,这是一种多阶段进化策略,可以逐步为模型配备必要的自动化技能。通过对分步准确性和图像质量的广泛评估,ChatGen-Evo 的性能显著优于各种基线模型。我们的评估还揭示了推进自动 T2I 的宝贵见解。我们所有的数据、代码和模型都将可在 \url{https://chengyou-jia.github.io/ChatGen-Home} 获取。
流式生成模型正广泛应用于各个领域,其中转录器架构在工业应用中尤为流行。然而,其输入同步解码机制在需要非单调对齐的任务(例如同声传译)中存在挑战,导致这些情况下性能欠佳。本研究通过利用可学习的单调注意力机制将转录器的解码与输入流的历史紧密结合,解决了这个问题。我们的方法利用前向-后向算法来推断预测器状态和输入时间戳之间对齐的后验概率,然后将其用于估计训练中单调注意力的上下文表示。这使得转录器模型能够根据其预测自适应地调整注意力范围,避免需要枚举指数级大小的对齐空间。大量实验表明,我们的 MonoAttn-Transducer 显著增强了流式生成中非单调对齐的处理能力,为基于转录器的框架处理更复杂的流式生成任务提供了一种稳健的解决方案。
本文提出了一种分布式在轨航天器组装算法,未来航天器可以在轨组装具有不同功能的模块,形成具有特定功能的航天器结构。这种航天器组织形式具有可重构性强、任务响应速度快、易于维护等优点。合理有效的在轨自重构算法对于实现分布式航天器的优势至关重要。本文采用模仿学习结合强化学习的框架进行模块处理顺序的策略学习,然后设计机器人臂运动算法来执行处理序列。我们通过创建模块表面的地图,利用A*算法完成机器人臂的路径点规划来实现自重构处理任务。然后通过正逆运动学完成机器人臂的关节规划。最后,结果在Unity3D中呈现。
近年来,多模态大型语言模型 (MLLM) 越来越强调其定位和指代能力,以实现更细致的理解和更灵活的用户交互。然而,在视觉文档理解领域,由于缺乏细粒度数据集和全面的基准测试,这些能力仍然落后。为了弥补这一差距,我们提出了文档定位和指代数据引擎 (DOGE-Engine),它生成两种类型的高质量细粒度文档数据:用于增强基本文本定位和识别能力的多粒度解析数据;以及用于在对话和推理过程中激活 MLLM 定位和指代能力的指令微调数据。此外,利用我们的引擎,我们构建了 DOGE-Bench,它包含跨越 3 种文档类型(图表、海报、PDF 文档)的 7 个定位和指代任务,为细粒度文档理解提供了全面的评估。此外,利用我们引擎生成的数据,我们开发了一个强大的基线模型 DOGE。这个开创性的 MLLM 能够准确地指代和定位文档图像中多个粒度的文本。我们的代码、数据和模型将开源,以促进社区发展。
大规模仇恨言论、骚扰、有害和色情内容以及暴力内容在网站和媒体平台上的广泛传播,带来了巨大的挑战,并引起社会各界的广泛关注。政府、教育工作者和家长经常与媒体平台就如何规范、控制和限制此类内容的传播存在分歧。用于检测和审查媒体内容的技术是解决这些挑战的关键方案。自然语言处理和计算机视觉技术已被广泛用于自动识别和过滤文本、图像和视频中的敏感内容,例如攻击性语言、暴力、裸露和成瘾内容,使平台能够大规模执行内容策略。然而,现有方法在以较少的误报和漏报实现高检测精度方面仍然存在局限性。因此,更复杂的算法来理解文本和图像的上下文,可能会为改进内容审查、构建更有效的审查系统打开空间。本文评估了现有的基于大型语言模型 (LLM) 的内容审核解决方案,例如 OpenAI 审核模型和 Llama-Guard3,并研究了它们检测敏感内容的能力。此外,我们探索了 GPT、Gemini 和 Llama 等最新的 LLM 在识别媒体渠道中不当内容方面的能力。我们使用了各种文本和视觉数据集,例如 X 推文、亚马逊评论、新闻文章、人物照片、漫画、素描和暴力视频,用于评估和比较。结果表明,LLM 通过实现更高的准确率和更低的误报率和漏报率,优于传统技术。这突出了将 LLM 集成到网站、社交媒体平台和视频共享服务中用于监管和内容审核的潜力。
基于Transformer的大型语言模型(LLM)在长序列上的推理由于自注意力机制的二次复杂度而代价高昂且速度缓慢。我们引入了星型注意力机制,这是一种两阶段的块稀疏近似方法,通过将注意力跨多个主机分片来提高计算效率,同时最大限度地减少通信开销。在第一阶段,上下文使用块内局部注意力在多个主机上并行处理。在第二阶段,查询和响应标记通过序列全局注意力关注所有先前缓存的标记。星型注意力可以与大多数使用全局注意力训练的基于Transformer的LLM无缝集成,将内存需求和推理时间最多减少11倍,同时保持95-100%的准确率。
分类器无关引导(CFG)已被证明可有效提高条件扩散模型采样中的条件一致性,许多应用使用否定CFG项来过滤样本中不需要的特征。然而,简单地否定CFG引导会产生一个反转的概率分布,常常使样本偏离边缘分布。受近期用于反问题的条件扩散模型进展的启发,我们在此提出一种利用对比损失来增强负CFG引导的新方法。具体来说,我们的引导项通过对比损失来根据给定条件调整或排斥去噪方向,在实现与传统CFG正向引导几乎相同的引导方向的同时,克服了现有负向引导方法的局限性。实验结果表明,我们的方法能有效去除不需要的概念,同时在各种场景下(从简单的类别条件到复杂和重叠的文本提示)保持样本质量。