arXiv:2505.06186v2 宣告类型: replace-cross
摘要:从生物医学研究中提取科学证据以回答临床研究问题(例如,干细胞移植是否能改善接受临床上难治性克罗恩病患者的治疗效果,与安慰剂相比?)是综合生物医学证据的关键步骤。在这篇论文中,我们重点关注具有矛盾证据的临床问题的文档级科学证据提取任务。为了支持这一任务,我们利用Cochrane系统综述中的森林图创建了一个名为CochraneForest的数据集。该数据集包含202个标注的森林图、相关的临床研究问题、研究的全文以及特定的研究结论。在此基础上,我们提出了一种名为URCA(Uniform Retrieval Clustered Augmentation)的检索增强生成框架,旨在解决证据提取的独特挑战。实验结果显示,与现有最佳方法相比,URCA在该任务上的F1分数上高出10.3%。然而,结果也突显了CochraneForest的复杂性,将其确立为推进自动化证据合成系统的具有挑战性的测试平台。
arXiv:2505.05498v2 公告类型: replace-cross
摘要:微电网已经成为了追求可持续和能效未来的关键解决方案。尽管微电网提供了诸多优势,但它们也面临着可靠预测可再生能源需求和生产、抵御网络攻击、控制运营成本、优化功率流动以及调节能源管理系统(EMS)性能的问题。解决这些能源管理挑战对于促进微电网的应用并无缝集成可再生能源资源至关重要。人工智能(AI)最近在微电网的能源管理优化中展现出巨大的潜力,提供了高效且可靠的解决方案。本文强调了在微电网的能源管理系统中启用基于AI的方法的优势,通过考察基于AI的EMS在实现特定技术经济目标方面的适用性和效率来阐述这一点。本文还指出了几项未来的研究方向,这些方向有望引领AI驱动的EMS的发展,包括自愈微电网的开发、与区块链技术的集成、物联网(IoT)的应用,以及在基于AI的EMS背景下解决可解释性、数据隐私、扩展性和生成AI的问题。
arXiv:2505.05071v2 通知类型: 替换-交叉
摘要: 对比语言-图像预训练(CLIP)在图像-文本检索和零样本分类等多模态任务中表现出色,但由于其专注于粗粒度的简短描述,因此在细粒度理解方面存在困难。为了解决这个问题,我们提出了细粒度CLIP (FG-CLIP),该方法通过三个关键创新来增强细粒度理解。首先,我们利用大规模的多模态模型生成16亿条长描述-图像对,以捕捉全局语义细节。其次,我们构建了一个高质量的数据集,其中包括1200万张图像和4000万条与详细描述对齐的区域特定边界框,以确保精确的、上下文丰富的表示。第三,我们纳入了1000万条困难的细粒度负样本,以提高模型区分微妙语义差异的能力。我们通过将高质量的区域特定注释与具有挑战性的细粒度负样本相结合,构建了一个综合数据集,称为FgGRN。针对这些数据,精心设计了相应的训练方法。 extensive 实验表明,FG-CLIP 在包括细粒度理解、开放式词汇对象检测、图像-文本检索以及通用多模态基准在内的各种下游任务中均优于原始 CLIP 和其他最先进的方法。这些结果突显了FG-CLIP 有效捕捉细粒度图像细节并提高整体模型性能的能力。相关数据、代码和模型可在 https://github.com/360CVGroup/FG-CLIP 获取。
arXiv:2505.04165v3 通告类型: replace-cross
摘要: 神经元脉冲网络(Spiking Neural Networks,SNNs)因其生物可塑性和能效性而越来越受到认可,这使它们在类神经计算应用中成为人工神经网络(Artificial Neural Networks,ANNs)的强大替代品。SNNs 通过利用脉冲的精确时间来处理时间信息,但平衡时间特征利用与低能耗之间的问题仍是一个挑战。在本文中,我们引入了脉冲神经网络中的时间移位模块(TS-SNN),该模块包含一种新颖的时间移位(Temporal Shift,TS)模块,通过简单的移位操作在单一时间步长内整合过去、现在和未来的脉冲特征。通过残差组合方法防止信息丢失,将移位和原始特征集成在一起。TS 模块轻巧,仅需一个额外的可学习参数,并且可以与现有架构无缝集成,同时具有较低的额外计算成本。TS-SNN 在 CIFAR-10(96.72%)、CIFAR-100(80.28%)和 ImageNet(70.61%)等基准上的性能优于以往,同时保持低能耗。这项工作标志着在开发高效准确的 SNN 架构方面迈出了重要一步。
arXiv:2505.04021v2 服务类型:替换交叉
摘要: 提供大型语言模型(LLMs)是昂贵的,尤其是对于托管许多模型的服务提供商而言,因此降低成本变得至关重要。为多个LLM提供服务的独特工作负载模式为这项任务带来了新的机会和挑战。模型的长尾 popularity 和其长时间的空闲期为通过 GPU 共享提高利用效率提供了机会。然而,现有的 GPU 共享系统缺乏在运行时调整其资源分配和共享策略的能力,使得它们在工作负载迅速波动的情况下无法有效满足延迟服务水平目标(SLO)。
本文介绍了 Prism,这是一种能够释放 GPU 共享全部潜力的多 LLM 服务系统,从而实现成本效率和 SLO 达成的双重目标。Prism 的核心在于解决现有系统的关键局限性——缺乏跨模型内存协调,这对于在动态工作负载下灵活地在模型之间共享 GPU 内存至关重要。Prism 通过两种关键设计实现了这一点。首先,它支持按需内存分配,通过动态映射物理到虚拟内存页面,允许在空间和时间共享 GPU 的模型之间灵活地重新分配内存。其次,它通过两级调度策略提高了内存效率,该策略根据模型的运行时需求动态调整共享策略。真实世界的追踪评估显示,Prism 在成本节约和 SLO 达成方面分别比最先进的系统表现出超过 2 倍和 3.3 倍的性能。
arXiv:2505.01731v2 约束类型: replace-cross
摘要:剪枝大规模语言模型(LLMs)是一种有望减少模型大小和计算复杂性,同时保持性能的方法。传统的逐层剪枝方法通常采用所有层统一的稀疏性方法,这会导致由于模型中各个Transformer层的重要性差异未被考虑而在整体性能上表现不佳。为了解决这一问题,我们为LLMs提出了基于Shapley值的非均匀剪枝(SV-NUP)方法。这种方法量化了每个Transformer层对整体模型性能的贡献,使得能够为不同的层分配定制的剪枝预算以保留关键参数。为了进一步提高效率,我们设计了基于滑动窗口的Shapley值近似方法。与精确的Shapley值计算方法相比,这种方法显著减少了计算开销。在包括LLaMA-v1、LLaMA-v2和OPT的各种LLMs上的广泛实验表明了所提出方法的有效性。结果表明,非均匀剪枝显著提高了剪枝模型的性能。值得注意的是,与SparseGPT在70%稀疏性下的表现相比,SV-NUP在LLaMA-7B上实现了18.01%的困惑度(PPL)减少,在LLaMA-13B上实现了19.55%的困惑度减少。
arXiv:2505.00759v2 评测类型: 替换-交叉
摘要:文本到图像(T2I)生成模型的持续改进导致依赖静态数据集的自动评估基准变得陈旧,促使研究人员寻找新的评估T2I进展的方法。本文中,我们探讨了多模态大型语言模型(MLLMs)作为与T2I模型交互的评估代理的潜力,旨在评估提示生成一致性和图像美学。我们提出了多模态文本到图像评估(MT2IE),这是一种评估框架,可以通过迭代生成用于评估的提示,对生成的图像进行评分,并使用现有基准中使用的提示分数的一部分将MT2IE与现有静态基准的T2I评估相匹配。此外,我们展示了MT2IE的提示生成一致性评分与文献中之前引入的评分相比,与人类判断的相关性更高。MT2IE生成的提示能够有效探测T2I模型性能,产生的相对T2I模型排名与现有基准相同,但评估所使用的提示数量仅为现有基准的1/80。
arXiv:2505.00240v2 宣布类型: replace-cross
摘要:物联网(IoT)的复杂性和规模不断增加,使其安全成为一个关键问题。本文提出了一种基于大型语言模型(LLM)的新颖框架,用于物联网环境中的全面威胁检测和预防。该系统集成了针对物联网特定数据集(IoT-23, TON_IoT)进行微调的轻量级LLM,实现实时异常检测,并提供针对资源受限设备优化的上下文感知自动化缓解策略。模块化的Docker部署方式使该系统能够在多种网络条件下实现可扩展和可重复的评估。在模拟的物联网环境中进行的实验结果表明,与传统安全方法相比,该框架在检测准确性、响应延迟和资源效率方面取得了显著改进。所提出框架强调了LLM驱动的自主安全解决方案在未来的物联网生态系统中具有巨大的潜力。
arXiv:2504.21435v3 宣告类型: replace-cross
摘要:随着多模态大语言模型(MLLMs)的迅猛发展,越来越多的基准测试被建立起来,用于评估这些模型的视频理解能力。然而,这些基准测试主要针对独立视频,主要评估“视觉元素”如人类行为和对象状态。实际上,当今的视频通常包含了复杂的连续叙事,通常以一系列形式呈现。为应对这一挑战,我们提出了一种名为SeriesBench的基准测试,包含105个精心策划的叙事驱动系列,覆盖28个需要深入叙事理解的专门任务。具体来说,我们首先选择了一组涵盖各种类型的戏剧系列。然后,我们引入了一种新的长跨度叙事注释方法,并结合了全面信息转换方法,将手动注释转换为多种任务格式。为了进一步增强模型在系列内部情节结构和角色关系详细分析方面的能力,我们提出了一种新的叙事推理框架PC-DCoT。在SeriesBench上进行的广泛结果表明,现有的MLLMs仍然在理解叙事驱动系列方面面临重大挑战,而PC-DCoT使这些MLLMs能够实现性能提升。总体而言,我们的SeriesBench和PC-DCoT强调了提高模型能力以理解叙事驱动系列的迫切必要性,指导未来MLLMs的发展。SeriesBench已在https://github.com/zackhxn/SeriesBench-CVPR2025公开提供。
arXiv:2504.20799v2 文章类型: replace-cross
摘要:近年来,在大型语言模型(LLMs)领域取得的技术突破使它们能够流畅地生成源代码。软件开发人员经常利用通用和代码专门化的LLMs来修订现有代码,甚至从头生成整个函数。这些能力在无代码或低代码环境中也非常有益,在这种环境中,即使没有技术背景也可以编写程序。然而,由于其内部设计,LLMs很容易生成幻觉代码,即不正确、不合逻辑且无法证明的信息,但这些幻觉难以识别其存在。这个问题在生成源代码时也会出现。一旦生成了幻觉代码,用户通常难以识别和修复它,尤其是在某些执行路径下可以识别这些幻觉的情况下。因此,幻觉代码可能在代码库中未被注意。本文综述了与CodeLLMs生成的幻觉相关的近期研究和技术。我们对CodeLLMs生成的代码中的幻觉类型进行了分类,回顾了现有的基准测试和缓解策略,并识别了存在的挑战。基于这些发现,本文概述了进一步的研究方向,以检测和移除由CodeLLMs生成的幻觉。