气候变化对人类生存构成威胁,因此需要有效的应对气候政策来推动变革。这一领域的决策极其复杂,涉及利益冲突的各方和证据。在过去几十年中,政策制定者越来越多地使用模拟和计算方法来指导决策。综合评估模型 (IAM) 就是其中一种方法,它结合了社会、经济和环境模拟,以预测政策的潜在影响。例如,联合国在其最近的政府间气候变化专门委员会 (IPCC) 报告中使用了 IAM 的输出。传统上,这些模型使用递归方程求解器来解决,但存在一些缺点,例如在不确定性条件下难以决策。最近,使用强化学习 (RL) 来替代传统求解器进行的初步工作表明,在不确定和噪声场景中,强化学习在决策方面取得了可喜的成果。我们扩展了这项工作,引入了多个相互作用的 RL 智能体,对模拟各种利益相关者或国家之间复杂的社会互动进行了初步分析,这些互动推动了当前的气候危机。我们的研究结果表明,在这种框架中,合作智能体可以始终如一地规划出更理想的未来路径,即减少碳排放和改善经济。然而,当在智能体之间引入竞争时,例如使用相反的奖励函数,则很少能达到理想的气候未来。模拟竞争对于提高这些模拟的真实性至关重要,因此我们通过可视化哪些状态会导致更不确定的行为来进行策略解释,从而了解算法失败的原因。最后,我们强调了当前的局限性和未来工作方向,以确保未来技术能够用于政策制定。
越来越多的研究关注于衡量客户本地数据集的统计异质性。此类度量用于估计个性化联邦学习 (PFL) 模型协作训练的适用性。目前,这些研究工作处于孤立状态,缺乏统一的基准来在常见设置中提供各种方法的公平、便捷的比较。本文旨在弥合这一重要差距。所提出的基准框架目前包含六种代表性方法。已进行大量实验以比较这些方法在五种标准非 IID FL 设置下的性能,为哪些方法在哪些设置下更具优势提供了急需的见解。所提出的框架为各种数据差异度量在 FL 系统中的适用性提供了有用的指导。它有利于将相关研究活动保持在正确的轨道上,具体而言: (1) 设计 PFL 方案,(2) 为特定 FL 应用场景选择合适的数据异质性评估方法,以及 (3) 解决协作模型训练中的公平问题。代码可在 https://github.com/Xiaoni-61/DH-Benchmark 获取。
arXiv:2410.07283v1 公告类型: cross
摘要: 随着大型语言模型 (LLMs) 的日益强大,多智能体系统在现代AI应用中的使用越来越普遍。然而,大多数安全性研究都集中在单智能体LLMs的漏洞上。这些漏洞包括通过恶意提示嵌入在外部内容中来欺骗LLM执行意外或有害操作的提示注入攻击,从而损害受害者的应用。在本文中,我们揭示了一个更危险的向量:多智能体系统中的LLM到LLM提示注入。我们介绍了提示感染,这是一种新型攻击,其中恶意提示在相互连接的智能体之间自我复制,行为类似于计算机病毒。这种攻击带来的严重威胁包括数据盗窃、诈骗、虚假信息传播以及系统范围的破坏,同时在系统中悄悄传播。我们广泛的实验表明,即使智能体不公开共享所有通信,多智能体系统也极为易受攻击。为了解决这个问题,我们提出了LLM标记,这是一种防御机制,结合现有的保护措施,可以显著减轻感染的传播。本文突显了随着多智能体LLM系统更广泛地采用,迫切需要先进的安全措施。
多模态大型语言模型 (MLLMs) 在各种任务中展现出强大的性能,无需从头开始训练。然而,它们面临着巨大的计算和内存限制,尤其是在处理超出上下文长度的多模态输入时,限制了它们的扩展性。本文提出了一种新方法,**TRSM**(**T**oken **R**eduction via **S**emantic **M**atch),它可以有效地减少视觉标记的数量,而不会影响 MLLM 的性能。受人类处理多模态任务方式的启发,TRSM 利用来自一种模态的语义信息来匹配另一种模态中的相关语义,从而减少视觉标记的数量。具体来说,为了保留与任务相关的视觉标记,我们使用文本提示作为查询向量来检索来自视觉提示的最相似向量,并将它们与文本标记合并。根据实验结果,当应用于 LLaVA-1.5\cite{liu2023} 时,我们的方法将视觉标记压缩了 20%,在各种视觉问答和推理任务中取得了相当的性能。
语音通常用于构建自动阿尔茨海默病痴呆 (AD) 检测系统,因为患有 AD 的人在早期阶段的声学和语言能力会下降。然而,语音不仅包含与 AD 相关的局部和全局信息,还包含与认知状态无关的其他信息,例如年龄和性别。在本文中,我们提出了一种名为 Swin-BERT 的基于语音的系统,用于自动痴呆检测。对于声学部分,我们使用为从图像中提取局部和全局信息而提出的移位窗口多头注意力来设计我们的基于声学的系统。为了解耦年龄和性别对声学特征提取的影响,它们被用作所设计声学系统的额外输入。对于语言部分,在将音频记录转录成文本时,会删除节奏相关信息,而节奏相关信息在患有和未患有 AD 的人之间存在很大差异。为了弥补删除的节奏相关信息,建议使用字符级文本作为词级 BERT 风格系统的额外输入。最后,Swin-BERT 将从我们提出的基于声学的系统中学习到的声学特征与我们的基于语言的系统相结合。实验基于国际痴呆检测挑战提供的两个数据集:ADReSS 和 ADReSSo。结果表明,提出的声学和语言系统在两个数据集上的表现都优于或与之前的研究相当。提出的 Swin-BERT 系统在 ADReSS 和 ADReSSo 数据集上取得了优异的结果,分别为 85.58% 的 F 分数和 87.32% 的 F 分数。
大型语言模型(LLMs)已在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法......
程序错误可能出现在任何类型的编程中,并以多种方式表现出来,例如意外输出、崩溃或性能问题。而程序错误诊断对于开发者来说往往过于抽象或技术性,特别是对于初学者而言。本文旨在提出一种用于多任务程序错误修复和解释性诊断(mPRED)的新型机器学习方法。使用预训练语言模型对源代码进行编码,并专门设计了下游模型来识别和修复错误。程序和测试用例将从多个角度进行增强和优化。此外,我们的方法还包含一种“思维链”方法,使模型能够在提供最终修正之前生成中间推理解释。为了帮助可视化和分析程序结构,我们使用图神经网络来可视化程序结构。总的来说,我们的方法为修复不同编程语言中的程序错误并为程序员提供有益的解释提供了一种很有前景的方法。
深度学习(DL)在机器人辅助微创手术(MIS)中用于标注手术器械,标志着手术技术的重大进步。本系统性综述考察了 48 项研究,这些研究采用了先进的 DL 方法和架构。这些复杂的 DL 模型在检测和分割手术工具的精度和效率方面取得了显著改进。这些模型增强功能支持各种临床应用,包括实时手术指导、全面术后评估和手术技能客观评估。通过准确识别和分割视频数据中的手术器械,DL 模型为外科医生提供详细的反馈,从而改善手术效果并降低并发症风险。此外,DL 在外科教育中的应用具有变革意义。综述强调了 DL 对提高技能评估准确性和整体外科培训计划质量的重大影响。然而,在手术工具检测和分割中实施 DL 面临着挑战,例如需要大量准确标注的数据集来有效地训练这些模型。手动标注过程劳动密集且耗时,构成了一个重大瓶颈。未来的研究应侧重于自动检测和分割过程,并增强 DL 模型对环境变化的鲁棒性。将 DL 模型应用于各种外科专业将是充分发挥该技术潜力的关键。将 DL 与增强现实 (AR) 等其他新兴技术相结合,也为进一步提高手术程序的精度和效率提供了有希望的机会。
在自动驾驶领域,鸟瞰图 (BEV) 表示法近年来获得了广泛的学术关注,成为融合多模态传感器输入的变革性框架。这种 BEV 范式有效地将传感器融合挑战从基于规则的方法转变为以数据为中心的方法,从而促进从一系列异构传感器中提取更细致的特征。尽管 BEV 技术具有明显的优点,但与 BEV 技术相关的计算开销通常需要高容量的硬件基础设施,因此对实际的现实世界应用提出了挑战。为了缓解这一限制,我们提出了一种新颖的基于内容感知的多模态联合输入剪枝技术。我们的方法利用 BEV 作为共享锚点,在将传感器区域引入感知模型的主干之前,以算法方式识别和消除非必要传感器区域。我们通过在 NuScenes 数据集上进行的广泛实验验证了我们方法的有效性,证明了在不牺牲感知精度的同时,实现了显著的计算效率。据我们所知,这项工作代表了首次尝试从输入剪枝角度减轻计算负担。
大型语言模型(LLMs)的快速发展极大地改变了人工智能领域,在自然语言处理方面展现出非凡的能力,并朝着多模态功能迈进。这些模型正越来越多地融入各种应用,对研究和行业都产生了影响。然而,它们的开发和部署带来了重大挑战,包括对大量计算资源的需求、高能耗和复杂的软件优化。与传统的深度学习系统不同,LLMs 需要针对训练和推理采用独特的优化策略,重点关注系统级效率。本文综述了专门针对大型语言模型的独特特征和约束而设计的硬件和软件协同设计方法。本综述分析了 LLMs 对硬件和算法研究的挑战和影响,探讨了算法优化、硬件设计和系统级创新。旨在全面了解 LLM 为中心的计算系统的权衡和考虑因素,引导人工智能的未来发展。最后,我们总结了该领域现有的努力,并概述了未来实现生产级协同设计方法以用于下一代大型语言模型和人工智能系统的方向。