arXiv 论文列表

大型语言模型是否具备情感敏感性？

大型语言模型（LLMs）在语言理解方面最近展示了其非凡的能力。然而，如何全面评估LLMs的情感能力仍然是一个挑战。本文研究了LLMs在文本模式中检测和反应情感的能力。随着LLMs融入各种应用的增加，理解它们对情感语调的敏感性变得至关重要，因为这可以影响用户体验和情感驱动任务的效能。我们进行了一系列实验，评估了几种著名LLMs在识别和适当回应积极、消极和中性情感方面的表现。模型输出在各种情感基准上进行分析，并与人类评估进行比较。我们的发现表明，尽管LLMs显示出对情感的基本敏感性，但它们在准确性和一致性方面存在显著差异，强调了在训练过程中进一步增强以更好地捕捉微妙情感线索的必要性。例如，在我们的发现中，在某些情况下，模型可能会错误地将强烈的积极情感分类为中性，或未能识别文本中的讽刺或反讽。这种错误分类突显了情感分析的复杂性以及模型需要改进的领域。另一个方面是，不同的LLMs可能在同一组数据上表现不同，这取决于它们的架构和训练数据集。这种差异呼吁对影响性能差异的因素进行更深入的研究，以及如何优化这些因素。

发布时间: 9/23/2024

查看原文

HERMES：基于情节和语义的时间一致性长格式理解

现有研究通常将长视频视为扩展的短视频，导致几个局限性：未能充分捕捉长程依赖关系，处理冗余信息效率低下，以及无法提取高级语义概念。为解决这些问题，我们提出了一种更准确反映人类认知的新方法。本文介绍了HERMES：基于情节和语义的时间一致长视频理解模型，该模型模拟情节记忆积累以捕捉动作序列，并通过分散在视频中的语义知识对其进行强化。我们的工作有两个关键贡献：首先，我们开发了一种情节压缩器（ECO），能够从微观到半宏观层面高效聚合关键表征，克服长程依赖的挑战。其次，我们提出了一种语义检索器（SeTR），通过聚焦于更广泛的上下文，增强这些聚合表征的语义信息，显著降低特征维度同时保留相关宏观级信息。这解决了冗余和缺乏高级概念提取的问题。大量实验表明，HERMES在多个长视频理解基准测试中，无论是在零样本还是全监督设置下，均达到了最先进的性能。

发布时间: 9/23/2024

查看原文

视觉变换器自监督学习机制综述

arXiv:2408.17059v2 公告类型: 替换-交叉摘要: 深度监督学习模型需要大量标注数据才能获得足够好的结果。然而，收集和标注如此庞大的数据既昂贵又费力。近年来，自监督学习（SSL）在视觉任务中的应用引起了广泛关注。SSL的直觉在于利用数据内部的同步关系作为自我监督的形式，这种形式具有多样性。在当前的大数据时代，大多数数据都是未标注的，因此SSL的成功依赖于找到利用这些大量未标注数据的方法。因此，深度学习算法减少对人类监督的依赖，转而专注于基于数据内部关系的自我监督，是更好的选择。随着视觉变换器（ViTs）的出现，这些模型在计算机视觉中取得了显著成果，探索和理解在有限标注数据情况下训练这些模型所采用的各种SSL机制变得至关重要。在本综述中，我们建立了一个系统的分类法，根据其表示和应用的预训练任务对SSL技术进行分类。此外，我们讨论了SSL背后的动机，回顾了流行的预训练任务，并突出了该领域的挑战和进展。此外，我们对不同的SSL方法进行了比较分析，评估了它们的优缺点，并确定了未来研究的潜在方向。

发布时间: 9/23/2024

查看原文

Celtibero：联邦学习中的鲁棒分层聚合方法

联邦学习（FL）是一种创新的分布式机器学习方法。尽管FL提供了显著的隐私优势，但它也面临着安全挑战，特别是来自中毒攻击的威胁，攻击者故意操纵本地模型更新以降低模型性能或引入隐藏后门。现有的防御措施在节点数据独立同分布（i.i.d.）的情况下已被证明是有效的，但在数据条件不那么严格、非i.i.d.的情况下，它们往往失效。为了克服这些限制，我们引入了Celtibero，这是一种新颖的防御机制，通过集成分层聚合来增强对抗性操纵的鲁棒性。通过对MNIST和IMDB数据集的广泛实验，我们证明Celtibero在各种非目标和目标中毒攻击中始终保持高主要任务准确率（MTA），同时将攻击成功率（ASR）保持在最低水平。我们的结果突显了Celtibero相对于现有防御措施（如FL-Defender、LFighter和FLAME）的优越性，确立了其在抵御复杂中毒攻击方面作为联邦学习系统安全有效解决方案的地位。

发布时间: 9/23/2024

查看原文

原始数据为王：大型语言模型嵌入在医学机器学习应用中对数值数据表示的有效性如何？

大型语言模型（LLMs）的引入推动了数据表示和分析的发展，在医学问答领域取得了显著进展。尽管如此，将表格数据，尤其是临床环境中至关重要的数值数据，整合到LLM范式中尚未得到充分探索。在本研究中，我们探讨了利用LLMs的最后隐藏状态生成的向量表示在电子健康记录（EHR）数据上的医学诊断和预后效果。我们将这些嵌入与原始数值EHR数据作为特征输入到擅长表格数据学习的传统机器学习（ML）算法（如极端梯度提升）中的表现进行比较。我们专注于在零样本设置下对指令调优的LLMs进行异常生理数据的表示，并评估它们作为特征提取器以增强ML分类器在预测诊断、住院时间和死亡率方面的效用。此外，我们还研究了零样本和少样本LLM嵌入的提示工程技术，以全面衡量其影响。尽管研究结果表明原始数据特征在医学ML任务中仍然占优，但零样本LLM嵌入显示出竞争性结果，表明在医学应用领域具有广阔的研究前景。

发布时间: 9/23/2024

查看原文

FEDKIM：医疗基础模型中的自适应联邦知识注入

基础模型在处理多种模态和任务方面展示了显著的能力，超越了高度依赖特定任务和模态的传统人工智能方法。然而，在医疗领域，全面基础模型的发展受到多样模态数据获取受限和严格隐私法规的制约。为应对这些限制，本研究提出了一种新颖的知识注入方法FedKIM，旨在联邦学习框架内扩展医疗基础模型。FedKIM利用轻量级本地模型从私有数据中提取医疗知识，并通过设计的自适应多任务多模态混合专家（M3OE）模块将这些知识整合到集中式基础模型中。该方法不仅保护了隐私，还增强了模型处理涉及多模态的复杂医疗任务的能力。我们在七种模态的十二项任务上的广泛实验证明了FedKIM在各种环境中的有效性，突显了其在不直接访问敏感数据的情况下扩展医疗基础模型的潜力。

发布时间: 9/23/2024

查看原文

利用大型语言模型提升流程模型理解

在业务流程管理（BPM）中，有效理解流程模型至关重要，但也面临着重大挑战，尤其是在组织规模扩大和流程变得更加复杂的情况下。本文介绍了一种利用大型语言模型（LLMs）先进能力的新框架，以增强复杂流程模型的可解释性。我们提出了将业务流程模型抽象为LLMs可访问格式的不同方法，并实施了专门设计的先进提示策略，以优化我们框架内的LLM性能。此外，我们展示了一个名为AIPA的工具，该工具实现了我们提出的框架，并支持对话式流程查询。我们通过i）比较不同LLMs、模型抽象和提示策略的自动评估，以及ii）旨在全面评估AIPA有效性的用户研究，来评估我们的框架和工具。结果表明，我们的框架能够提高流程模型的可访问性和可解释性，为将人工智能技术融入BPM领域开辟了新的途径。

发布时间: 9/23/2024

查看原文

ConfusedPilot：基于RAG的大型语言模型中的困惑代理风险

检索增强生成（RAG）是一种过程，其中大型语言模型（LLM）从数据库中检索有用信息，然后生成响应。它在企业日常业务运营中变得越来越流行。例如，Microsoft 365的Copilot已经积累了数百万家企业用户。然而，采用这种RAG系统的安全影响尚不明确。本文介绍了ConfusedPilot，一类RAG系统的安全漏洞，这些漏洞会混淆Copilot并导致其响应的完整性和机密性违规。首先，我们研究了一种漏洞，该漏洞在RAG的修改提示中嵌入恶意文本，从而破坏LLM生成的响应。其次，我们展示了一种漏洞，该漏洞利用检索过程中的缓存机制泄露秘密数据。第三，我们研究了如何利用这两种漏洞在企业内部传播错误信息，并最终影响其运营，如销售和制造。我们还通过研究RAG系统的架构来讨论这些攻击的根本原因。本研究突出了当今RAG系统中的安全漏洞，并提出了设计指南以确保未来RAG系统的安全性。

发布时间: 9/23/2024

查看原文

大型属性图中的路径关联规则挖掘（附录）

arXiv:2408.02029v3 公告类型: 替换-交叉摘要: 如何从带有边标签和顶点属性的图中挖掘频繁路径规律？关联规则挖掘任务成功地在项目集和子结构中发现规律模式。然而，据我们所知，这一概念尚未扩展到大型属性图中的路径模式。在本文中，我们引入了路径关联规则挖掘（PARM）问题。应用于大型图中两个顶点之间的任何可达路径，PARM发现由顶点属性和边标签标识的路径模式之间共同出现的规律方式。我们开发了一种高效且可扩展的算法PIONEER，该算法利用反单调性属性来有效修剪搜索空间。此外，我们设计了近似技术并采用并行化来实现可扩展的路径关联规则挖掘。我们使用真实世界图数据的实验研究验证了路径关联规则的重要性以及我们解决方案的效率。

发布时间: 9/23/2024

查看原文

通过状态空间变换实现高效防护合成

我们考虑了合成控制系统安全策略的问题，也称为防护罩。由于状态空间是无限的，防护罩通常在有限状态抽象上计算，最常见的抽象是矩形网格。然而，对于许多系统，这种网格与安全属性或系统动力学并不完全吻合。因此，粗网格通常不够充分，而细网格在计算上通常是不可行的。在本文中，我们展示了适当的状态空间变换仍然可以在几乎没有计算开销的情况下使用粗网格。我们在三个案例研究中证明了基于变换的合成方法比标准合成方法快几个数量级。在前两个案例研究中，我们使用领域知识选择合适的变换。在第三个案例研究中，我们报告了在没有领域知识的情况下设计变换的结果。

发布时间: 9/23/2024

查看原文