LLM2D

arXiv 论文列表

作者: Qing Cheng, Zefan Zeng, Xingchen Hu, Yuehang Si, Zhong Liu
事件因果识别 (ECI) 已成为自然语言处理 (NLP) 中的一项关键任务,旨在自动从文本数据中提取因果关系。本综述系统地探讨了 ECI 的基础原理、技术框架和挑战,提供了一个全面的分类法来对当前的研究方法进行分类和阐明,并对现有模型进行了定量评估。我们首先建立了 ECI 的概念框架,概述了关键定义、问题表述和评估标准。我们的分类法根据句子级 (SECI) 和文档级 (DECI) 事件因果识别的两项主要任务对 ECI 方法进行分类。对于 SECI,我们研究了基于特征模式的匹配、深度语义编码、因果知识预训练和基于提示的微调以及外部知识增强方法。对于 DECI,我们重点介绍了专注于事件图推理和基于提示的技术来解决跨句因果推理的复杂性方法。此外,我们分析了每种方法的优势、局限性和开放性挑战。我们还在两个基准数据集上对各种 ECI 方法进行了广泛的定量评估。最后,我们探讨了未来的研究方向,重点介绍了克服当前局限性和拓宽 ECI 应用的有前景的途径。
发布时间: 11/26/2024
查看原文
作者: Zhen-Ting Liu, Shang-Tse Chen
模型反转(MI)攻击通过从训练良好的模型中恢复训练数据分布,对深度神经网络的隐私构成了重大威胁。虽然现有的防御方法通常依赖于正则化技术来减少信息泄漏,但它们仍然容易受到最近攻击的影响。本文提出了一种基于陷门模型反转防御(Trap-MID)方法来误导MI攻击。一个陷门被集成到模型中,当输入被注入相应的触发器时,它会预测一个特定的标签。因此,这个陷门信息充当了MI攻击的“捷径”,引导它们提取陷门触发器而不是私有数据。我们从理论上分析了陷门有效性和自然性对迷惑MI攻击的影响。此外,实证实验表明,Trap-MID在无需额外数据或大量计算开销的情况下,对各种MI攻击具有最先进的防御性能。我们的源代码已公开发布在https://github.com/ntuaislab/Trap-MID。
发布时间: 11/26/2024
查看原文
作者: Shauli Ravfogel, Anej Svete, V\'esteinn Sn{\ae}bjarnarson, Ryan Cotterell
理解和操纵语言模型中的因果生成机制对于控制其行为至关重要。以往的工作主要依赖于诸如表示手术(例如,模型消融或操纵与特定概念相关的线性子空间)等技术来干预这些模型。为了精确理解干预的影响,检查反事实(例如,如果模型遵循特定干预措施生成句子,该句子将是什么样子)非常有用。我们强调,反事实推理在概念上与干预不同,正如 Pearl 的因果层次结构中所阐述的那样。基于这一观察,我们提出了一种通过将语言模型重新表述为使用 Gumbel-max 技巧的广义结构方程模型来生成真实字符串反事实的框架。这使我们能够模拟原始字符串及其来自相同采样噪声实例的反事实的联合分布。我们开发了一种基于事后 Gumbel 采样的算法,使我们能够推断潜在噪声变量并生成观察到的字符串的反事实。我们的实验表明,该方法产生了有意义的反事实,同时表明常用的干预技术具有相当大的不良副作用。
发布时间: 11/26/2024
查看原文
作者: Konstantinos Katsaros, Ioannis Mavromatis, Kostantinos Antonakoglou, Saptarshi Ghosh, Dritan Kaleshi, Toktam Mahmoodi, Hamid Asgari, Anastasios Karousos, Iman Tavakkolnia, Hossein Safi, Harald Hass, Constantinos Vrontos, Amin Emami, Juan Parra Ullauri, Shadi Moazzeni, Dimitra Simeonidou
第六代通信网络(6G)的研发在过去几年中势头强劲,目标是在2030年前推出。全球多个倡议正在开发创新解决方案,并为这些网络的关键特性设定方向。一些共同的新兴主题包括人工智能的紧密集成、多种接入技术的融合和可持续运行,旨在满足严格的性能和社会需求。为此,我们推出了REASON——面向开放网络的实现赋能架构和解决方案。REASON项目旨在利用人工智能原生原则,考虑多种接入技术和云原生解决方案,解决未来网络部署中的技术挑战,例如端到端服务编排、可持续性、安全和信任管理以及策略管理。本文介绍了REASON的架构以及对未来网络的确定需求。该架构经过精心设计,具有模块化、互操作性、可扩展性、简化的故障排除、灵活性和增强的安全性,同时考虑了当前和未来的标准化工作以及易于实施和培训。它由四个水平层组成:物理基础设施、网络服务、知识和最终用户应用,并辅以两个垂直层:管理和编排以及端到端安全。这种分层方法确保了一个强大且适应性强的框架,以支持6G网络多样化和不断发展的需求,促进创新并促进先进技术的无缝集成。
发布时间: 11/26/2024
查看原文
作者: Ziheng Jia, Zicheng Zhang, Jiaying Qian, Haoning Wu, Wei Sun, Chunyi Li, Xiaohong Liu, Weisi Lin, Guangtao Zhai, Xiongkuo Min
大型多模态模型 (LMM) 的出现和普及为计算机视觉带来了新的范式,将各种任务转化为统一的视觉问答框架。视频质量评估 (VQA) 是低级视觉感知中的一个经典领域,最初侧重于定量视频质量评分。然而,受 LMM 进展的驱动,它现在正朝着更全面的视觉质量理解任务发展。最近在图像领域的研究表明,视觉问答 (VQA) 可以显著增强低级视觉质量评估。然而,相关工作尚未在视频领域进行探索,仍有很大的改进空间。为了解决这一差距,我们引入了 VQA2 指令数据集——第一个专注于视频质量评估的视觉问答指令数据集。该数据集包含 3 个子集,涵盖各种视频类型,包含 157,755 个指令问答对。然后,利用这个基础,我们提出了 VQA2 系列模型。VQA2 系列模型交错视觉和运动标记,以增强对视频中时空质量细节的感知。我们对视频质量评分和理解任务进行了广泛的实验,结果表明 VQA2 系列模型在这两项任务中都取得了优异的性能。值得注意的是,我们的最终模型 VQA2-Assistant 在视觉质量理解任务中超越了著名的 GPT-4o,同时在质量评分任务中保持了强大的竞争力。我们的工作为将低级视频质量评估和理解与 LMM 集成提供了一个基础和可行的方法。
发布时间: 11/26/2024
查看原文
作者: Fardin Jalil Piran, Zhiling Chen, Mohsen Imani, Farhad Imani
联邦学习 (FL) 对于物联网 (IoT) 环境中的高效数据交换至关重要,因为它可以在本地训练机器学习 (ML) 模型,并且只共享模型更新。然而,FL 容易受到模型反演和成员推断攻击等隐私威胁,这些攻击可能会暴露敏感的训练数据。为了解决这些隐私问题,通常会应用差分隐私 (DP) 机制。然而,在黑盒 ML 模型中添加 DP 噪声会降低性能,尤其是在动态 IoT 系统中,持续的终身 FL 学习会随着时间的推移积累过多的噪声。为了减轻这个问题,我们引入了具有隐私保护功能的联邦超维计算 (FedHDPrivacy),这是一个可解释人工智能 (XAI) 框架,它将神经符号范式与 DP 相结合。FedHDPrivacy 通过理论上跟踪先前轮次的累积噪声,并仅添加必要的增量噪声以满足隐私要求,从而仔细地平衡隐私和性能。在一个涉及制造机械加工操作过程监控的真实案例研究中,FedHDPrivacy 表现出强大的性能,其性能优于标准 FL 框架(包括联邦平均 (FedAvg)、联邦随机梯度下降 (FedSGD)、联邦近端 (FedProx)、联邦归一化平均 (FedNova) 和联邦 Adam (FedAdam))高达 38%。FedHDPrivacy 还显示出未来增强的潜力,例如多模态数据融合。
发布时间: 11/26/2024
查看原文
本文提出了一种利用大型语言模型 (LLM) 来简化 ISO 37101 框架应用的新方法,从而实现对城市倡议进行自动化和标准化评估,以应对标准中概述的六个“可持续性目标”和十二个“问题”。该方法包括基于标准定义开发自定义提示,并将其应用于两个不同的数据集:巴黎参与式预算中的 527 个项目和 PROBONO Horizon 2020 项目中的 398 项活动。结果表明,LLM 在根据可持续性标准快速且一致地对不同的城市倡议进行分类方面非常有效。这种方法在打破城市规划中的信息孤岛方面尤其有前景,因为它提供了对项目影响的整体视角。本文讨论了这种方法相对于传统人工评估的优势,包括显著节省时间和提高一致性。然而,它也指出了在解释结果和伦理考虑方面人类专业知识的重要性。这项研究有望为人工智能在城市规划中的应用研究不断增长的领域做出贡献,并为在不同城市环境中实施标准化可持续性框架提供了一种新方法。
发布时间: 11/26/2024
查看原文
作者: Ziqi Gao, Wendi Yang, Yujia Li, Lei Xing, S. Kevin Zhou
非语义上下文信息对于视觉识别至关重要,因为人类视觉感知系统首先利用全局统计信息快速处理场景,然后识别特定物体。然而,虽然语义信息越来越多地被纳入计算机视觉任务(如图像重建)中,但非语义信息(如全局空间结构)往往被忽视。为了弥合这一差距,我们提出了一种受生物学启发的非语义上下文描述符——**MS-Glance**,以及用于比较两幅图像的Glance指数度量。全局Glance向量是通过基于感知驱动规则从图像中随机检索像素来形成的,代表非语义全局上下文;局部Glance向量是展平的局部图像窗口,模拟放大观察。Glance指数定义为两组标准化Glance向量的内积。我们在两个重建任务中评估了结合Glance监督的有效性:使用隐式神经表示 (INR) 的图像拟合和欠采样MRI重建。大量的实验结果表明,MS-Glance在自然图像和医学图像的图像恢复损失方面均优于现有的方法。代码可在\url{https://github.com/Z7Gao/MSGlance}获取。
发布时间: 11/26/2024
查看原文
提示注入攻击对大型语言模型 (LLM) 构成严重威胁,可能导致目标劫持和数据泄露。虽然提示防护模型在防御方面有效,但它们存在过度防御的问题——由于触发词偏差,会将良性输入错误地标记为恶意输入。为了解决这个问题,我们引入了 NotInject,这是一个评估数据集,用于系统地衡量各种提示防护模型的过度防御程度。NotInject 包含 339 个良性样本,其中添加了提示注入攻击中常见的触发词,从而实现细粒度的评估。我们的结果表明,最先进的模型存在过度防御问题,准确率下降到接近随机猜测水平 (60%)。为了减轻这个问题,我们提出了 InjecGuard,这是一种新型提示防护模型,它结合了一种新的训练策略——免费减轻过度防御 (MOF),该策略显著降低了对触发词的偏差。InjecGuard 在包括 NotInject 在内的各种基准测试中展现了最先进的性能,比现有最佳模型提高了 30.8%,为检测提示注入攻击提供了一种强大且开源的解决方案。代码和数据集已发布在 https://github.com/SaFoLab-WISC/InjecGuard。
发布时间: 11/26/2024
查看原文
作者: Yiyang Sun, Tong Wang, Cynthia Rudin
大型语言模型(LLM)已取代众多自然语言处理任务中的传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法…… 稀疏性是机器学习可解释性的核心方面。通常,稀疏性是根据模型的全局大小来衡量的,例如它使用的变量数量。然而,这种稀疏性概念与决策制定并不特别相关;接受决策的人并不关心不影响决策的变量。在这项工作中,我们极大地扩展了名为稀疏解释值 (SEV) 的决策稀疏性概念,使其解释更有意义。SEV 考虑沿超立方体向参考点移动。通过允许该参考点的灵活性,并考虑沿超立方体的距离如何转化为特征空间中的距离,我们可以为各种类型的函数类推导出更稀疏、更有意义的解释。我们提出了基于聚类的 SEV 及其变体基于树的 SEV,介绍了一种提高解释可信度的方法,并提出了一种优化机器学习模型中决策稀疏性的算法。
发布时间: 11/26/2024
查看原文