LLM2D

arXiv 论文列表

arXiv:2503.22755v2 安全公告类型:替换交叉 摘要:网络安全需要严格且可扩展的技术,以确保系统的正确性、鲁棒性和对不断变化的威胁的弹性。自动化推理,涵盖形式逻辑、定理证明、模型检查和符号分析,为跨各种领域(如访问控制、协议设计、漏洞检测和对手建模)验证安全属性提供了基础框架。本文综述了自动化推理在网络安全中的作用,分析了逻辑系统(包括时间逻辑、应许逻辑和知识逻辑)如何被用来形式化和验证安全保证。我们探讨了最先进的工具和框架,探讨了与AI集成进行神经符号推理的途径,并指出了关键的研究空白,特别是在可扩展性、组合性和多层安全建模方面。文章以一组坚实的研究方向结束,旨在通过正式、自动化和可解释的推理技术促进安全系统的开发。
发布时间: 5/14/2025
查看原文
作者: William Claster, Suhas KM, Dhairya Gundechia
arXiv:2503.22742v2 通知类型: replace-cross 摘要: 我们提出了自适应集成分层注意力(AILA)神经网络架构,该架构结合了密集跳连接和不同的机制,以在不同网络层中实现自适应特征复用。我们在三个具有挑战性的任务上评估了AILA:各类大宗商品和指数(标普500、黄金、美国国债期货、咖啡、小麦)的价格预测,使用CIFAR-10数据集的图像识别,以及基于IMDB电影评论数据集的情感分析。在所有情况下,AILA都与强大的深度学习基线(LSTMs、Transformer和ResNets)相匹配,而且只需极少的训练和推理时间。值得注意的是,我们实现了并测试了该模型的两个版本 - AILA-Architecture 1,其中使用简单的线性层作为层之间的连接机制,以及AILA-Architecture 2,其中实现了注意力机制以有选择地关注之前的层输出。两个架构都在单任务学习设置中应用,每个模型独立训练以适应特定任务。结果表明,AILA的自适应跨层连接通过灵活地在多个网络深度中复用相关特征,提供了稳健的性能增益。因此,AILA方法扩展了现有的架构,提高了长序列建模、优化计算速度的图像识别以及实际中的SOTA分类性能。
发布时间: 5/14/2025
查看原文
作者: Yedan Shen, Kaixin Wu, Yuechen Ding, Jingyuan Wen, Hong Liu, Mingjie Zhong, Zhouhan Lin, Jia Xu, Linjian Mo
arXiv:2503.21098v3 公告类型: 交叉替换 摘要:生成式检索(GR)在大规模语言模型(LLMs)的出现下革新了文档检索,基于LLM的GR正逐渐被行业采用。尽管它具有显著的优点和潜力,但基于LLM的GR却遭受幻觉问题,并在一些情况下生成与查询无关的文档,这严重挑战了其在实际应用中的可信度。因此,我们提出了一种优化的GR框架,旨在减轻检索幻觉问题,该框架在模型训练中整合了知识蒸馏推理,并结合决策代理以进一步提高检索精度。具体而言,我们利用LLM评估和推理检索到的查询-文档(q-d)对,并将推理数据作为 transfer 知识传递给GR模型。此外,我们使用决策代理作为后处理步骤,通过检索模型扩展GR检索到的文档,并从多个角度选择最相关的文档作为最终生成检索结果。在实际数据集上的大量离线实验和支付宝基金搜索和保险搜索的在线A/B测试表明,我们的框架在提高搜索质量和转化率方面表现优异且有效。
发布时间: 5/14/2025
查看原文
作者: Hao Cui, Zahra Shamsi, Gowoon Cheon, Xuejian Ma, Shutong Li, Maria Tikhanovskaya, Peter Norgaard, Nayantara Mudur, Martyna Plomecka, Paul Raccuglia, Yasaman Bahri, Victor V. Albert, Pranesh Srinivasan, Haining Pan, Philippe Faist, Brian Rohr, Ekin Dogus Cubuk, Muratahan Aykol, Amil Merchant, Michael J. Statt, Dan Morris, Drew Purves, Elise Kleeman, Ruth Alcantara, Matthew Abraham, Muqthar Mohammad, Ean Phing VanLee, Chenfei Jiang, Elizabeth Dorfman, Eun-Ah Kim, Michael P Brenner, Viren Jain, Sameera Ponda, Subhashini Venugopalan
arXiv:2503.13517v2 评测类型: replace-cross 摘要:科学问题解决涉及综合信息并应用专家知识。我们提出了一个名为CURIE的科学长上下文理解、推理和信息提取基准,用于衡量大型语言模型(LLMs)在科学问题解决和协助科学家在实际工作流程中的潜力。该基准引入了十项具有挑战性的任务,共包含580个问题和解决方案配对,由六个学科的专家(材料科学、凝聚态物理学、量子计算、地理空间分析、生物多样性、蛋白质)精心挑选,涵盖了科学中的实验和理论工作流程。我们对CURIE中的各种封闭和开放的LLMs进行了评估,这些任务要求领域专业知识、理解长上下文信息以及多步推理。虽然Gemini Flash 2.0和Claude-3在各个领域中表现出一致的高水平理解,但流行的GPT-4o和command-R+在蛋白质序列任务上表现极差。尽管最佳性能为32%,但所有模型都还有很大的改进空间。我们希望通过CURIE获得的见解能够指导未来科学领域中LLMs的发展。评估代码和数据可在 https://github.com/google/curie 找到。
发布时间: 5/14/2025
查看原文
作者: Run He, Di Fang, Yicheng Xu, Yawen Cui, Ming Li, Cen Chen, Ziqian Zeng, Huiping Zhuang
arXiv:2503.05423v3 公告类型: replace-cross 摘要: 无范例类增量学习(EFCIL)旨在不保留范例的情况下顺序学习不同的类别,但容易遭受灾难性遗忘的问题。尽管现有的EFCIL方法利用知识蒸馏来减轻遗忘,它们仍然面临两个关键挑战:语义偏移和决策偏见。具体来说,学习新任务后,旧任务的嵌入在嵌入空间中发生了偏移,且由于仅使用新数据进行训练,分类器被偏向前向的任务,从而破坏了旧知识与新知识之间的平衡。为了解决这些问题,我们提出了一种用于EFCIL的双投影偏移估计和分类器重构(DPCR)方法。DPCR有效地通过双投影来估计语义偏移,该方法结合了一个可学习的变换与行空间投影,以捕获任务层面和类别层面的偏移。此外,为了减轻决策偏见,DPCR采用岭回归来重新构建分类器重构过程。该重构过程利用校准后每个类别的协方差和原型,从而减少了决策偏见。广泛的实验表明,在各种数据集上,DPCR有效平衡了旧任务和新任务,并优于最先进的EFCIL方法。我们的代码可在 https://github.com/RHe502/ICML25-DPCR 获取。
发布时间: 5/14/2025
查看原文
作者: Jingying Zeng, Hui Liu, Zhenwei Dai, Xianfeng Tang, Chen Luo, Samarth Varshney, Zhen Li, Qi He
arXiv:2503.04830v3 陈述类型: replace-cross 摘要:随着对话型大型语言模型(LLMs)的发展,已经开发出了多种基于LLM的对话型购物代理(CSA),以帮助客户顺利进行在线购物。在构建一个充满吸引力且可信赖的CSA时,主要目标是确保代理关于产品事实信息的回答准确且基于事实。然而,仍存在两个挑战。首先,LLMs会产生虚构的或未支持的断言。这些不准确的信息会增加传播误导性信息的风险,并降低客户信任。其次,在CSA的回答中不提供知识来源的引用,客户难以验证LLM生成的信息。为了解决这两个挑战,我们提出了一种易于生产化的解决方案,使我们的客户能够体验引用。我们构建了自动评估指标,以全面评估LLM的接地能力和引用能力,表明通过引用生成范式,接地性能提高了13.83%。为在大规模部署此功能,我们引入了多UX推理系统,该系统在保持现有用户体验功能的同时,支持大规模推理,并在输出中附加来源引用。大规模在线A/B测试显示,基于事实的CSA回答在不同的用户体验变体下可提高客户参与度3% - 10%。
发布时间: 5/14/2025
查看原文
作者: Clayton Bromley, Alexander Moore, Amar Saini, Doug Poland, Carmen Carrano
arXiv:2503.00042v2 通知类型: 更新交叉 摘要:视频对象分割(VOS)是视频感知和理解发展中的一项关键任务。Meta AI发布的Segment-Anything Model 2(SAM 2)是当前端到端VOS的最佳架构。SAM 2在干净的视频数据和增强数据上表现都非常出色,而完整的智能视频感知要求理解该架构是如何达到如此高质量结果的。为更好地理解SAM 2架构中每一步如何实现高质量视频分割,通过该架构传递一系列复杂的视频变换,并测量每一步过程的影响。观察到每一阶段都使复杂变换噪声的过滤变得更加有效,从而强调了目标对象。贡献包括创建复杂变换视频数据集,分析SAM 2架构的每一步如何解释这些变换,以及在每一步通过可视化分割对象。通过更好地理解每一种模型结构对整体视频理解的影响,VOS开发可以努力提高在复杂杂乱场景和遮挡情况下进行目标定位和分割的实际应用性和性能跟踪。
发布时间: 5/14/2025
查看原文
作者: Weiyang Kong, Kaiqi Wu, Sen Zhang, Yubao Liu
arXiv:2502.19823v2 通知类型: 替换-交叉 摘要:交通流量预测是智能路线规划和动态交通管理中广泛应用于时空数据挖掘的关键任务。最近深度学习的发展,特别是通过图神经网络(GNNs),在捕捉复杂的时空动态方面显著提高了这些预测的准确性。然而,由于随着图中节点数增加模型复杂性的指数增长,GNN 的可扩展性仍是一个挑战。现有解决这一问题的方法,包括稀疏化、分解和核基方法,要么没有完全解决复杂性问题,要么有损预测准确性。本文提出了 GraphSparseNet(GSNet),这是一种新型框架,旨在提高基于 GNN 的交通预测模型的可扩展性和准确性。GraphSparseNet 包含两个核心模块:特征提取器和关系压缩器。这两个模块具有线性时间和空间复杂度,从而将模型的整体计算复杂度降低到线性规模。我们对多个真实世界数据集进行的广泛实验表明,GraphSparseNet 不仅将训练时间显著缩短了 3.51 倍,与最先进的线性模型相比,而且保持了高度的预测性能。
发布时间: 5/14/2025
查看原文
作者: Zhengjian Kang, Ye Zhang, Xiaoyu Deng, Xintao Li, Yongzhe Zhang
arXiv:2502.05147v3 通告类型: 替换交叉 摘要:本文提出了LP-DETR(逐层递进DETR),这是一种通过多尺度关系建模来增强基于DETR的目标检测的新方法。我们的方法通过关系感知的自注意力机制引入了对象查询之间的可学习空间关系,该机制在解码器层之间自适应地学习平衡不同尺度的关系(局部、中等和全局)。这种递进设计使得模型能够在检测管道中有效地捕捉空间依赖性的演变。在COCO 2017数据集上的广泛实验表明,与标准的自注意力模块相比,我们的方法在收敛速度和检测准确性方面都有所提升。所提出的方法实现了可竞争的结果,使用ResNet-50主干时,在12个epochs下达到52.3%的AP,在24个epochs下达到52.5%的AP,并进一步使用Swin-L主干时提升到58.0%的AP。此外,我们的分析揭示了一个有趣的模式:模型自然学会在早期解码器层优先关注局部空间关系,而在更深的层逐渐转向更广泛的上下文,为未来的目标检测研究提供了有价值的见解。
发布时间: 5/14/2025
查看原文
作者: Keshav Bhandari, Sungkyun Chang, Tongyu Lu, Fareza R. Enus, Louis B. Bradshaw, Dorien Herremans, Simon Colton
arXiv:2502.04522v2 宣布类型:替换-交叉 摘要:尽管深度学习在各个领域的风格转换方面取得了显著的进步,但在为完整符号表示的音乐作品生成可控性能级别的音乐风格转换方面,依然是一个具有挑战性的研究领域。这主要归因于有限的数据集,尤其是在爵士乐等流派方面,以及缺乏能够处理多种音乐生成任务的统一模型。本文提出了即兴网(ImprovNet),这是一种基于转换器的架构,通过自监督的损坏-修正训练策略生成具有表现力和可控性的即兴音乐。即兴风格转换旨在对原作品中的一个或多个音乐元素(旋律、和声或节奏)进行有意义的修改,以适应目标流派。即兴网将多种能力整合到一个模型中:它可以进行跨流派和同一流派的即兴创作、以特定流派的风格和声旋律、执行短提示续写和填充任务。模型的迭代生成框架允许用户控制风格转换和结构相似性与原作品的程度。客观和主观的评估证明了即兴网在生成音乐上连贯的即兴创作方面,同时保持与原始作品的结构性关系的有效性。在短续写和填充任务中,该模型优于预期音乐转换器,并成功实现了可识别的流派转换,79%的参与者能够正确识别古典作品的爵士风格即兴创作。我们的代码和演示页面可以在 https://github.com/keshavbhandari/improvnet 查看。
发布时间: 5/14/2025
查看原文