LLM2D

arXiv 论文列表

作者: Jiahua Lan, Sen Zhang, Haixia Pan, Ruijun Liu, Li Shen, Dacheng Tao
arXiv:2504.08000v1 公告类型: 新 摘要: 与人类能够连续获取知识的能力相比,代理人在深度强化学习(DRL)中面临着稳定性和可塑性的两难问题,即保留现有技能(稳定性)和学习新知识(可塑性)之间的权衡。当前的方法集中在在网络层面平衡这两方面,但缺乏对单个神经元的充分区分和精细控制。为克服这一局限,我们提出了基于神经元级稳定性和可塑性平衡(Neuron-level Balance between Stability and Plasticity, NBSP)的方法,灵感来源于特定神经元对任务相关技能的强烈相关性。具体而言,NBSP 首先(1)通过目标导向的方法定义和识别对于知识保留至关重要的 RL 技能神经元,然后(2)通过使用梯度掩蔽和经验回放技术针对这些神经元的框架来保存编码的现有技能,同时允许对新任务的适应。在 Meta-World 和 Atari 基准测试中的大量实验结果表明,NBSP 在平衡稳定性和可塑性方面显著优于现有方法。
发布时间: 4/14/2025
查看原文
arXiv:2504.06643v2 Announce Type: replace-cross 摘要:无监督多变量时间序列异常检测(UMTSAD)在金融、网络和传感器系统等多个领域中发挥着关键作用。近年来,由于深度学习在通用序列任务方面的卓越性能,许多模型专门用于深度UMTSAD任务并取得显著成果,尤其是基于Transformer和自注意力机制的模型。然而,这些模型背后的序列异常关联假设往往限于特定预定义的模式和场景,例如集中或峰值异常模式。这些限制阻碍了它们在多样化的异常情况下的泛化能力,尤其是在缺乏标签时带来重大挑战。为了解决这些问题,我们提出了AMAD,它集成了用于UMTSAD场景的**Auto**-**M**asked **A**ttention。AMAD引入了一种基于AutoMask机制的新结构和注意力Mixup模块,形成了一个简洁但通用的异常关联表示框架。该框架通过最大-最小训练策略和局部-全局对比学习方法进一步增强。通过结合多尺度特征提取与自动相对关联建模,AMAD提供了对UMTSAD挑战的稳健且具有适应性的解决方案。广泛的实验结果表明,所提出的模型在多种数据集上与SOTA基准相比取得了竞争力的性能结果。
发布时间: 4/11/2025
查看原文
作者: Chrisantha Fernando, Dylan Banarse, Simon Osindero
arXiv:2504.06611v2 公告类型: replace-cross 摘要:本文探讨了相互意识的内在动机,假设人类即使在缺乏外在奖励的情况下,也具有一种基本的驱动力,即理解他人和被他人理解。通过感知交叉范式的模拟,我们探讨了强化学习代理内部奖励函数的不同效应。希望理解他人的驱动力被实现为一种类似于主动推断的人工好奇奖励,而被他人理解的驱动力则通过模仿、影响/可影响性和对方的次反应时间预期的内在奖励来实现。结果显示,仅凭人工好奇奖励并不能导致对社交互动的偏好,而注重相互理解的奖励成功地促使代理优先进行互动。我们展示了这种内在动机在仅有一个代理因另一方的行为而获得外在奖励的任务中可以促进合作。
发布时间: 4/11/2025
查看原文
arXiv:2504.06265v2 通知类型: replace-cross 摘要:大型语言模型(LLMs)可以在其潜在空间中编码复杂的关系,但在不确定性下的优化利用仍然具有挑战性。我们通过重新将LLM微调重新框定为通过深度核方法进行高斯过程(GP)边际似然优化来解决这一缺口。我们引入了基于LLM的深度核,与GP联合优化以保留两者的好处——LLM提供丰富的灵活输入空间供贝叶斯优化使用,GP则用带有预测不确定性的方式来建模这个空间以实现更高效的采样。在Buchwald-Hartwig反应优化中,我们的方法在50次优化迭代中几乎将高表现反应的发现率提高了近一倍(从顶级反应的24%提高到43%的覆盖范围)。我们还发现,在不需要特殊特征的情况下,相对于专有的表示,我们的方法提高了14%。在涵盖从通用化学到反应和分子性质优化的19项基准测试中,我们的方法展示了其鲁棒性、普遍性和一致的改进:(1)任务,(2)LLM架构(编码器、解码器、编码器-解码器),(3)预训练领域(与化学相关的或通用的),以及(4)超参数设置(在单个数据集上调整一次)。最后,我们通过联合LLM-GP优化中的边际似然隐式执行对比学习,对齐表示来实现:(1)更好的结构嵌入空间,(2)改进的不确定性校准,以及(3)更高效的采样——而无需任何外部损失。这项工作不仅提供了样本高效优化的实际进步,还揭示了有效贝叶斯优化的奥秘。
发布时间: 4/11/2025
查看原文
作者: Marcel Worring, Jan Zah\'alka, Stef van den Elzen, Maximilian T. Fischer, Daniel A. Keim
arXiv:2504.06138v2 宣告类型: replace-cross 摘要:基础模型和自主人工智能的快速进步正在通过使人类和分析系统的交互更加丰富和复杂来转变多媒体分析。然而,现有的视觉和多媒体分析概念模型未能充分捕捉这些强大AI范式引入的复杂性。为了解决这一差距,我们提出了一种专门设计用于基础模型时代的全面多媒体分析模型。该模型建立在视觉分析、多媒体分析、知识生成、分析任务定义、混合主动性指导以及循环学习的人机协作框架之上,从技术和概念两个方面强调基于视觉分析代理的人机协作。模型的核心在于专家用户和半自主分析过程之间无缝且明确可分的交互通道,确保用户意图与AI行为之间持续对齐。该模型解决了如情报分析、调查 journalism 和其他处理复杂高风险数据领域的实际挑战。通过详细的案例研究,我们展示了该模型如何促进对多媒体分析解决方案的深入理解和针对性改进。通过明确捕获专家用户如何与AI驱动的多媒体分析系统进行最优化交互和引导,我们的概念框架为系统设计、比较和未来研究指明了明确的方向。
发布时间: 4/11/2025
查看原文
作者: Ajay Jaiswal, Jianyu Wang, Yixiao Li, Pingzhi Li, Tianlong Chen, Zhangyang Wang, Chong Wang, Ruoming Pang, Xianzhi Du
arXiv:2504.05586v2 宣传类型: 替换-交叉 摘要: 稀疏激活的专家混合(SMoE)已经在扩展神经网络的学习能力方面显示出潜力。然而,传统的SMoE存在专家冗余和高内存需求的问题,使其在资源受限的场景中效率低下且不可扩展。在专家级别上对SMoE进行稀疏化涉及到剪枝那些对性能影响最小但最不重要的专家以解决这些问题。在这项工作中,我们旨在回答三个问题:(1)什么是识别那些可以被最小影响性能就可删除的最不重要的专家的最佳方法?(2)我们应该如何进行专家删除(一次性删除或迭代删除),以及我们如何采取纠正措施以最小化其对SMoE子网络能力的严重影响?(3)当移除最占主导地位的专家时,SMoE的哪些能力受到了严重损害,我们如何恢复这些能力?首先,我们提出了一种SMoE专家压缩套件(MC-Suite),这是一个包含一些已探索和多个新颖方法的集合,用于从不同角度提供评估专家重要性的全面基准,并揭示了许多有关SMoE专家的宝贵见解。其次,与之前使用一次性专家剪枝方法的研究不同,我们探讨了重新估计MC-Suite标准以利用迭代剪枝的益处。此外,我们引入了一种在迭代专家删除过程中作为纠正机制的无任务特定微调,我们称其为SMoE彩票子网络。最后,我们提出了一项实验验证的猜想:在进行专家删除时,SMoE的遵循指令能力受到了主要的损害,但在使用k-shot示例和监督微调的外部增强后,可以将其恢复到一个稳健的水平。
发布时间: 4/11/2025
查看原文
arXiv:2504.05331v2 宣告类型: replace-cross 摘要:随着人工智能(AI)嵌入医疗保健,对医疗决策的信任正在迅速变化。本文认为,AI 的信任不仅仅是从人类转移给机器的简单过程——它是一种动态、持续变化的关系,需要建立和维持。本文并非争论AI 是否应存在于医学中,而是提出了以下问题:AI 必须赢得何种类型的信任,以及如何赢得?从哲学、生物伦理学和系统设计中汲取灵感,本文探索了人类信任与机器可靠性之间的关键差异——强调透明度、问责制以及与优质护理价值观的一致性。本文主张,AI 的信任不应建立在模仿同理心或直觉的基础之上,而应建立在深思熟虑的设计、负责任的部署以及清晰的道德责任之上。目标是实现一种平衡的观点——既避免盲目乐观,也避免过分恐惧。AI 的信任不应被视为理所当然,而是需要随着时间的推移逐步赢得。
发布时间: 4/11/2025
查看原文
作者: Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun, Waris Gill, Abdul Haddi Amjad, Ali R. Butt, Mohammad Taha Khan, Muhammad Ali Gulzar
arXiv:2504.04372v2 宣布类型: 替换-交叉 摘要:大型语言模型(LLMs)在代码修复和测试等后开发任务中越来越被使用。这些任务的成功关键在于模型对代码的深刻理解。然而,LLMs 真正理解代码的程度至今仍然很少受到评估。量化代码理解难度在于其抽象性质以及缺乏标准化的度量标准。此前,这主要通过开发者调查来评估,但对于评估LLMs来说并不可行。现有的LLM基准主要集中在代码生成上,这与代码理解本质上不同。此外,固定的基准很快就会过时,因为它们成为了训练数据的一部分。本文提出了首次大规模实证研究,探讨LLMs理解代码的能力。受到突变测试的启发,我们使用LLM的故障查找能力作为其对代码的深刻理解的代理。这一方法基于这样一个见解:能够识别细微功能性差异的模型,必须对代码有很好的理解。我们在真实程序中注入故障,并要求LLM定位这些故障,确保规范足以支持故障定位。随后,我们对有故障的程序应用语义保留的代码突变(SPMs),并测试Lans是否仍能找到故障,从而验证其对代码理解的信心。我们在670个Java和637个Python程序的600,010个调试任务上评估了九种流行的LLMs。我们发现,在应用SPMs后,LLMs在78%的有故障的程序中失去了调试同一故障的能力,表明其对代码的理解较浅,并且依赖于与语义无关的特征。我们还发现,LLMs在程序的早期部分比后期更能理解代码。这表明,由于为自然语言设计的分词导致LLMs的代码理解仍然与词汇和语法特征相关,而忽略了代码语义。
发布时间: 4/11/2025
查看原文
作者: Gabriel Kenji Godoy Shimanuki, Alexandre Moreira Nascimento, Lucio Flavio Vismari, Joao Batista Camargo Junior, Jorge Rady de Almeida Junior, Paulo Sergio Cugnasca
arXiv:2504.03989v3 通告类型: replace-cross 摘要:自动驾驶车辆(AVs)旨在通过减少人为错误来提高交通安全性与效率。然而,在考虑罕见的高风险交通场景时,确保AVs的可靠性和安全性是一项艰巨的任务。这些“Corner Cases”(CC)场景,例如不可预见的车辆操作或突然的行人横穿,必须在AVs的操作过程中安全可靠地处理。但这些场景难以高效生成。传统CC生成依赖于昂贵且具有风险的现实世界数据收集,限制了其扩展性,并减缓了研究和开发进度。基于仿真的技术也面临挑战,因为要建模多样的场景并捕捉所有可能的CC是复杂且耗时的。为了解决这些CC生成的局限性,本研究引入了CORTEX-AVD(CORner Case Testing & EXploration for Autonomous Vehicles Development,面向自动驾驶车辆开发的边缘案例测试与探索框架),这是一个开源框架,它结合了CARLA仿真器和Scenic来从文本描述中自动生成CC,增加了场景建模的多样性和自动化。遗传算法(GA)被用来优化六个案例研究中场景的参数,增加了高风险事件的发生率。与之前的方法不同,CORTEX-AVD整合了一个多因素适应度函数,考虑了距离、时间、速度和碰撞可能性等变量。此外,研究还提供了一种基于GA的CC生成方法的基准,为合成数据生成和场景评估的标准化评价做出了贡献。实验结果表明,CORTEX-AVD框架显著增加了CC的发生率,同时减少了无效仿真的比例。
发布时间: 4/11/2025
查看原文
作者: Dahun Kim, AJ Piergiovanni, Ganesh Mallya, Anelia Angelova
arXiv:2504.03970v2 通知类型: 更换交叉引用 摘要:我们引入了VideoComp,这是一种基准和学习框架,旨在促进视频-文本组成的理解,以提高视觉语言模型(VLMs)在细粒度时间对齐方面的表现。与现有专注于静态图像-文本组成的基准或孤立单事件视频的基准不同,我们的基准针对的是连续多事件视频的时间对齐。利用与事件时间局部化词幕相关的视频-文本数据集(例如,ActivityNet-Captions,YouCook2),我们构建了两个组合基准,即ActivityNet-Comp和YouCook2-Comp。我们创建了具有微妙时间干扰的具有挑战性的负样本,例如重新排列、动作词替换、部分标题描述和结合的干扰。这些基准全面测试了模型在扩展连贯视频-文本序列中的组成敏感性。为了改善模型性能,我们提出了一种分层成对偏好损失,该损失加强了时间准确的成对对齐,逐渐惩罚越来越多的干扰,鼓励细粒度的组成学习。为了缓解密集标注视频数据的有限可用性,我们引入了一种预训练策略,将短视频-标题对连接起来,模拟多事件序列。我们在我们的基准上评估了视频-文本基础模型和大型多模态模型(LMMs),识别出组成方面的优点和需要改进的领域。总体而言,我们的工作提供了一种全面的框架,用于评估和增强模型实现细粒度、时间一致的视频-文本对齐的能力。
发布时间: 4/11/2025
查看原文