arXiv:2409.15355v5 宣告类型: replace-cross
摘要:我们介绍了Block-attention,一种旨在解决检索增强生成(RAG)场景中增加的推理延迟和成本的注意力机制。传统的做法通常以自回归的方式编码整个上下文。相反,Block-attention将检索到的文档分割成离散的块,除了最后一个块外,每个块独立计算键值(KV)状态。在RAG场景中,通过将每个段落定义为一个块,Block-attention使我们能够重用之前见过的段落的键值状态,从而大大减少了推理过程中的延迟和计算开销。Block-attention的实现涉及块分割、位置重新编码以及对LLM进行微调以适应Block-attention机制。在包括RAG、ICL和一般领域的11个不同基准上进行的实验表明,在块微调后,Block-attention模型不仅实现了与全注意力模型相当的性能,而且可以在不损失性能的情况下无缝地在块注意力和全注意力模式之间切换。值得注意的是,Block-attention显著降低了第一个词生成时间(TTFT)和浮点操作(FLOPs)到非常低的水平。对于总长度为32K的输入序列,产出第一个词仅需45毫秒。与全注意力模型相比,TTFT和相应的FLOPs分别减少了98.7%和99.8%。此外,在附录A中,我们详细介绍了Block-attention在游戏AI场景中的应用及其带来的显著潜在益处。我们强烈建议游戏领域的研究人员不要忽视这一部分。
arXiv:2409.11267v2 宣称类型: 替换交叉
摘要:本文提出了一种结合强化学习和模型预测控制(MPC)的方法,以高效地解决混合逻辑动态系统的有限 horizon 最优控制问题。对于具有离散和连续决策变量的此类系统的基于优化的控制涉及在线求解混合整数线性规划问题,这会受到维数灾的困扰。我们提出的方法旨在通过将离散变量的决策与连续变量的决策解耦,减轻这一问题。在提出的这种方法中,强化学习确定了离散决策变量,并将MPC控制器的在线优化问题从混合整数线性规划简化为线性规划,显著减少了计算时间。本文的一个基本贡献是对解耦的 Q 函数的定义,这在组合动作空间中使学习问题变得可处理。我们通过使用递归神经网络来逼近解耦的 Q 函数,并展示了它们如何在强化学习环境中使用。使用实际数据对微电网系统进行的仿真试验表明,所提出的方法在保持高可行性和低次优化的同时,大幅减少了 MPC 的在线计算时间。
arXiv:2409.10589v3 宣传类型:替换交叉
摘要:车间调度问题(JSSP)是一个复杂的组合优化问题。尽管在线强化学习(RL)通过快速找到JSSP的可接受解展现出了潜力,但它面临着一些关键限制:它需要从头开始进行大量的训练交互,导致样本效率低下,无法利用现有的高质量解,并且常常比约束编程(CP)等传统方法产生次优结果。我们引入了离线强化学习以学习调度(Offline-LD),通过学习之前生成的解来解决这些限制问题。我们的方法受到历史调度数据和专家解可用的场景的启发,尽管当前的评估主要集中在基准问题上。Offline-LD 对适用于可屏蔽动作空间的两种 CQL 基本 Q 学习方法(mQRDQN 和离散 mSAC)进行了调整,引入了一种新颖的离散 SAC 的熵奖金修改,并利用预处理中的奖励归一化。我们的实验表明,Offline-LD 在生成实例和基准实例上均优于在线 RL。值得注意的是,通过将噪声引入专家数据集,我们能够在一些情况下达到甚至超过使用专家数据集时的结果,这表明一个更具多样性的训练集可能更优,因为它包含了反事实信息。
arXiv:2409.09386v2 通告类型: replace-cross
摘要:深度学习已彻底改变了高光谱图像(HSI)分析领域的面貌,使其能够提取复杂的光谱和空间特征。尽管卷积神经网络(CNNs)一直是HSI分类的基石,但它们在捕捉全局上下文特征方面的局限性促使人们探索视觉变换器(ViTs)。本文介绍了一种先进的SegFormer,专为多波段图像分割设计。AMBER通过引入三维卷积、自定义核尺寸和Funnelizer层,增强了原始SegFormer。该架构使可以直接处理高光谱数据,而无需在预处理过程中进行光谱维度降维。我们在三个基准数据集(Salinas、Indian Pines和Pavia University)和PRISMA卫星数据集上进行的实验显示,AMBER在Overall Accuracy、Kappa系数和前三个数据集上的Average Accuracy方面优于传统的基于CNN的方法,并在PRISMA数据集上达到了最先进的性能。这些发现突显了AMBER的稳健性、对空基和地基数据的适应性,以及其作为处理高维数据高级分析的强大解决方案的潜力。
arXiv:2408.13364v2 通知类型: 交叉替换
摘要:计算模型在增强我们对理论和定性学习理论及框架中的细微差别的了解方面可以发挥重要作用。在教育环境中,有许多现有框架已被实证研究验证,但在某些时候,我们会发现这些理论在教学建议上存在冲突。在这项研究中,我们提出了一种新的计算模型,Procedural ABICAP,以协调ICAP、Knowledge-Learning-Instruction (KLI)和认知负荷理论(CLT)框架对程序性知识学习的应用。ICAP假设建设性学习通常会产生更好的学习结果,而KLI和CLT理论则认为这并不总是正确的。我们认为其中一个原因是ICAP主要适用于概念性学习,而且作为程序性学习框架不明确。我们展示了我们的计算模型,无论是设计上还是通过模拟,都可以用来协调文献中不同的结果。更广泛地说,我们将我们的计算模型定位为一个可执行的学习理论,可以用来模拟各种教育环境。
arXiv:2408.11816v3 宣告类型: replace-cross
摘要:面对强化学习中的探索难题,我们研究了是否通过给智能体提供以物体为中心的映射(描述一组物品及其属性)可以使其学习更加高效。我们发现这个问题可以通过层次化建模来解决,即将物品在较高层次的状态抽象化为像素表示,将属性的变化在较高层次的时间抽象化为基本动作。这种抽象简化了状态转移动态,使其更容易预测特定的未来状态。我们利用这一点提出了一个完全基于模型的算法,该算法可以学习一个判别性世界模型,仅依赖基于计数的固有奖励高效地计划探索,并且可以随后计划到达任何已发现的(抽象表示的)状态。
我们展示了该模型的能力,包括:(i) 高效地解决单个任务,(ii) 跨物品类型和环境进行零样本和少样本的迁移,(iii) 跨长时间段进行计划。在一系列2D制作环境和MiniHack环境中,我们实验证据表明,该模型在没有使用抽象的低层次方法中显著优于最先进的方法,同时使用相同的抽象机制,表现优秀的模型自由和模型驱动方法也表现更优。最后,我们展示了如何通过强化学习学习低层次的物体扰动策略,并通过监督学习学习物体映射本身。
arXiv:2408.08926v4 Announce Type: replace-cross
摘要:能够自主识别漏洞并执行利用行动的网络安全部落语言模型(LM)代理具有实际影响的潜力。人工智能和网络安全社区中的政策制定者、模型提供者和研究人员对量化这些代理的能力感兴趣,以帮助减轻网络风险并调查渗透测试的机会。为此,我们引入了Cybench,一个用于指定网络安全任务并评估代理在这些任务上的框架。我们包含了来自4个不同CTF比赛的40项专业级别的“攻防”(CTF)任务,这些任务具有近期性、意义性和广泛的难度范围。每个任务都包含其自己的描述、起始文件,并初始化在代理可以执行命令并观察输出的环境中。由于许多任务超出了现有LM代理的能力范围,我们为每个任务引入了子任务,将任务分解为中间步骤以进行更详细的评估。为了评估代理能力,我们构建了一个网络安全代理,并对8个模型进行了评估:GPT-4o、OpenAI o1-preview、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。对于表现最好的模型(GPT-4o 和 Claude 3.5 Sonnet),我们进一步在4个代理支撑结构(结构化的bash、仅动作、伪终端和网络搜索)中进行了性能评估。在没有子任务指导的情况下,利用Claude 3.5 Sonnet、GPT-4o、OpenAI o1-preview和Claude 3 Opus的代理成功解决了最长达11分钟才能解决的人类团队的完整任务。相比之下,最难的任务需要人类团队花费24小时54分钟才能解决。所有代码和数据都可以在https://cybench.github.io公开获得。
arXiv:2408.04917v2 宣布类型: 替换-交叉
摘要: 主动学习(AL)旨在通过有选择地收集高信息量的数据来增强模型性能,从而最小化注释成本。然而,在实际场景中,未标注数据可能包含离分布(OOD,Out-of-Distribution)样本,这些样本不用于训练,如果错误选择数据,则会导致注释成本的浪费。因此,为了让主动学习在实际应用中可行,不仅要考虑未标注样本的信息量,还必须考虑其纯度来确定它们是否属于在分布(ID,In-Distribution)。最近的研究在这些假设下应用了主动学习,但由于信息量和纯度之间的权衡,以及对OOD样本的高依赖性,仍存在挑战。这些问题导致收集OOD样本,从而造成显著的注释成本浪费。为了解决这些挑战,我们提出了一种新的查询策略—VLPure-AL,它在减少对OOD样本的依赖的同时,最小化成本损失。VLPure-AL 依次评估数据的纯度和信息量。首先,它利用预训练的视觉-语言模型,通过利用ID数据的语义和视觉信息高精度地检测和排除OOD数据。其次,它从剩余的ID数据中选择高信息量的数据,然后由人类专家对选定样本进行标注。在具有各种开放集条件的数据集上的实验结果表明,VLPure-AL 在所有场景中均能实现最低的成本损失和最高的性能。代码可在 https://github.com/DSBA-Lab/OpenAL 获取。
arXiv:2408.02479v2 宣布类型: 交叉替换
摘要:随着大型语言模型(LLMs)的发展,研究人员越来越多地探索它们在各个垂直领域中的应用,如软件工程。LLMs 在代码生成和漏洞检测等领域取得了显著的成功。然而,它们也表现出许多限制和缺点。基于LLMs的代理,作为一种有潜力实现通用人工智能(AGI)的新技术,将LLMs作为决策和行动的核心,解决了一些LLMs固有的局限性,如缺乏自主性和自我改进能力。尽管有众多研究和调查探讨了在软件工程中使用LLMs的可能性,但在LLMs和基于LLMs的代理之间缺乏明确的区别。在该领域还没有一个统一的标准和基准来鉴定一个LLM解决方案是否可以作为基于LLMs的代理。在本文综述中,我们广泛调查了当前在软件工程中用于LLMs和基于LLMs代理的做法和解决方案。特别是我们总结了六个关键话题:需求工程、代码生成、自主决策、软件设计、测试生成和软件维护。我们审查并区分了这些话题中LLMs和基于LLMs代理的工作,检查它们在任务、基准和评估指标方面的差异与相似之处。最后,我们讨论了所使用的基础模型和基准,提供了对它们在软件工程中的应用和效果的全面分析。我们希望这项工作能为未来的研究开拓基于LLMs代理在软件工程中的边界提供一些启示。
arXiv:2407.20021v4 公告类型: 替换交叉
摘要:无数据量化(DFQ)是一种技术,可以从其全精度对应网络创建一个轻量级网络,而无需原始训练数据,通常通过合成数据集实现。尽管已经提出了一些针对视觉变换器(ViT)架构的DFQ方法,但在低位运算情况下,它们未能实现有效的量化。通过观察现有方法,我们发现它们的合成数据生成的注意力图不一致,而真实样本的注意力图高度一致。从这一观察出发,我们发现调整合成数据的注意力图有助于提高量化ViT的整体性能。受这一发现的启发,我们设计了MimiQ,这是一种新颖的针对ViT的DFQ方法,旨在增强跨头注意力相似性。首先,我们通过对每个空间查询块的头向注意力输出进行对齐来生成合成数据。然后,通过应用头向结构注意力蒸馏,将量化网络的注意力图与全精度教师网络的注意力图对齐。实验结果表明,所提出的方法显著优于基线方法,为ViT-DFQ设立了一个新的最先进的标准。这篇论文是我们在AAAI 2025会议 proceedings 发表的工作的扩展版本,包括额外的补充材料。