近年来,基于机器学习的能源管理方法(特别是带有安全层(OptLayerPolicy)的强化学习和生成决策树控制策略的元启发式算法(TreeC))取得了进展,但其有效性仅在计算机模拟中得到验证。本文介绍了这些方法的实际验证结果,并将其与模型预测控制和简单的基于规则的控制基准进行了比较。实验在4个住宅复制品的电气安装上进行,每个住宅都拥有自己的电池、光伏系统和动态负载系统,模拟不可控的电力负荷和可控的电动汽车充电器。结果表明,简单的规则、TreeC和基于模型预测控制的方法实现了相似的成本,差异仅为0.6%。基于强化学习的方法(仍在训练阶段)的成本比其他方法高出25.5%。额外的模拟表明,通过使用更具代表性的TreeC训练数据集以及解决模型预测控制实现中由于依赖各种来源的准确数据而造成的错误,可以进一步降低成本。OptLayerPolicy安全层允许在真实环境中对强化学习智能体进行安全的在线训练,前提是准确的约束函数公式。然而,所提出的安全层方法仍然容易出错,但对于所有研究的方法都很有益。TreeC方法不需要构建真实的训练模拟,表现出最安全的运行性能,与强化学习相比,其超过电网限制的电量仅为27.1 Wh,而强化学习为593.9 Wh。
超参数优化在机器学习中非常常用。然而,对大型参数空间的优化可能导致模型过拟合。在最近关于溶解度预测的研究中,作者从不同的数据源收集了七个热力学和动力学溶解度数据集。他们使用了最先进的基于图的方法,并使用不同的数据清洗协议和超参数优化比较了为每个数据集开发的模型。我们的研究表明,超参数优化并不总是能产生更好的模型,这可能是因为使用相同的统计指标时发生了过拟合。使用预设的超参数可以计算出类似的结果,从而将计算量减少约 10000 倍。我们还通过添加一种基于自然语言处理smiles的表示学习方法(Transformer CNN)扩展了之前的分析。我们表明,在所有使用完全相同协议的分析集中,Transformer CNN 在 28 次两两比较中,有 26 次都比基于图的方法取得了更好的结果,并且所需时间仅为其他方法的一小部分。最后但同样重要的是,我们强调了使用完全相同的统计指标比较计算结果的重要性。
本研究证明了深度神经网络 (DNN) 学习交互作用的两阶段动力学。尽管长期以来人们对 DNN 事后解释的忠实性持悲观态度,但近年来已证明一系列定理表明,对于给定的输入样本,输入变量之间的一小部分交互作用可以被视为原始推理模式,这些模式忠实地代表了 DNN 对该样本的详细推理逻辑。特别是,张等人观察到各种 DNN 都在两个不同的阶段学习不同复杂性的交互作用,而这种两阶段动力学很好地解释了 DNN 如何从欠拟合转变为过拟合。因此,在本研究中,我们从数学上证明了交互作用的两阶段动力学,为 DNN 的泛化能力在训练过程中如何变化提供了一个理论机制。实验表明,我们的理论很好地预测了不同 DNN 在各种任务训练中交互作用的实际动力学。
大型语言模型(LLM)令人印象深刻的能力引发了人们的争论:这些模型是否真正能够泛化到未见的任务,还是主要依赖于记忆海量的预训练数据。为了探讨这个问题,我们引入了一个扩展的记忆概念——分布式记忆,它衡量LLM输出概率与预训练数据频率之间的相关性。为了有效地捕捉特定任务的预训练数据频率,我们提出了一种新颖的任务语法语言模型,该模型通过计算预训练语料库中来自任务输入和输出的语义相关n-gram对的共现次数来构建。使用在Pile数据集上训练的Pythia模型,我们评估了四个不同的任务:机器翻译、事实性问答、世界知识理解和数学推理。我们的研究结果揭示了不同程度的记忆效应,在事实性问答中观察到最强烈的效应。此外,虽然随着LLM规模的增加,所有任务的模型性能都得到了提高,但只有事实性问答显示出记忆效应的增加,而机器翻译和推理任务则表现出更强的泛化能力,产生更多新颖的输出。这项研究表明,记忆在更简单、知识密集型任务中扮演着更大的角色,而泛化是更难、基于推理的任务的关键,它提供了一种可扩展的方法,可以更深入地分析大型预训练语料库。
大型多模态模型 (LMM) 显著地推动了各种视觉语言任务的发展。高质量训练数据的可扩展性和可用性在 LMM 的成功中起着关键作用。在食品领域,虽然像 Recipe1M 这样的综合食品数据集提供了丰富的食材和食谱信息,但它们往往缺乏足够的营养分析数据。Recipe1M+ 数据集尽管提供了一个用于营养评估的子集,但在营养信息的规模和准确性方面仍然有限。为了弥合这一差距,我们引入了 Uni-Food,这是一个统一的食品数据集,包含超过 100,000 张图像,以及各种食品标签,包括类别、成分、食谱和成分级别的营养信息。Uni-Food 旨在为食品数据分析提供更全面的方法,从而增强 LMM 在该领域的性能和能力。为了减轻 LMM 微调过程中多任务监督引起的冲突,我们引入了一种新颖的线性整流混合专家 (RoDE) 方法。RoDE 利用各种各样的专家来处理不同复杂度的任务,从而促进可训练参数的协调,即为更复杂的任务分配更多参数,反之,为更简单的任务分配更少的参数。RoDE 使用线性整流联合来改进路由器的功能,从而提高稀疏任务分配的效率。这些设计选择赋予 RoDE 特性,确保 GPU 内存效率和易于优化。我们的实验结果验证了我们提出的方法在解决食品相关多任务固有挑战方面的有效性。
现有的多模态大型语言模型 (MLLM) 越来越强调对各种视觉元素(包括多个对象、文本信息和空间关系)的复杂理解。它们在全面视觉感知方面的发展取决于高质量图像-文本数据集的可用性,这些数据集提供多样化的视觉元素和全面的图像描述。然而,此类高度详细的数据集的稀缺性目前阻碍了 MLLM 社区的进步。瓶颈在于当前字幕引擎的感知能力有限,无法提供完整且准确的注释。为了促进 MLLM 在全面视觉感知方面的尖端研究,我们因此提出了感知融合 (Perceptual Fusion),它使用一种低成本但高效的字幕引擎来生成完整且准确的图像描述。具体来说,感知融合将不同的感知专家作为图像先验信息,以提供关于视觉元素的明确信息,并采用高效的 MLLM 作为中心枢纽来模拟高级 MLLM 的感知能力。我们从未经整理的 LAION 数据集中仔细选择了 100 万张具有高度代表性的图像,并使用我们开发的引擎(称为 DenseFusion-1M)生成了密集的描述。大量的实验验证了我们的引擎优于其同类产品,由此产生的数据集显著提高了现有 MLLM 在各种视觉语言基准测试中的感知和认知能力,尤其是在使用高分辨率图像作为输入时。数据集和代码已公开发布在 https://github.com/baaivision/DenseFusion。
基于Wi-Fi、红外和射频等信号的无线传感技术在物联网(IoT)系统中的发展已取得显著进展。其中,射频(RF)传感以其经济高效、非侵入式的人类活动和环境变化监测能力而脱颖而出。然而,传统的射频传感方法面临着噪声、干扰、数据不完整以及部署成本高等重大挑战,这些挑战限制了其有效性和可扩展性。本文研究了生成式人工智能 (GenAI) 在物联网生态系统中克服这些限制的潜力。我们对最先进的 GenAI 技术进行了全面综述,重点关注其在射频传感问题中的应用。通过生成高质量的合成数据、增强信号质量和集成多模态数据,GenAI 为射频环境重建、定位和成像提供了强大的解决方案。此外,GenAI 的泛化能力使物联网设备能够适应新的环境和未见的任务,从而提高其效率和性能。本文的主要贡献包括:对射频传感挑战的详细分析;基于 GenAI 的创新解决方案的介绍;以及针对各种射频传感任务的统一框架的提出。通过案例研究,我们证明了集成 GenAI 模型的有效性,从而实现了先进、可扩展和智能的物联网系统。
强化学习 (RL) 在现实世界决策中具有巨大潜力,但它也面临许多独特的难题,这些难题往往需要特别考虑。特别是:它高度非平稳;存在高度可塑性损失;需要探索以防止过早收敛到局部最优并最大化回报。本文探讨了学习优化是否能够帮助克服这些问题。我们的方法,即用于可塑性、探索和非平稳性的学习优化 (OPEN),元学习了一个更新规则,其输入特征和输出结构借鉴了先前针对这些难题提出的解决方案。我们证明了我们的参数化足够灵活,能够在不同的学习环境中实现元学习,包括利用随机性进行探索的能力。我们的实验表明,当在单个和小型环境集上进行元训练时,OPEN 的性能优于或等于传统使用的优化器。此外,OPEN 在各种环境和智能体架构中都表现出强大的泛化特性。
我们引入了PoPreRo,这是第一个从Reddit收集的罗马尼亚帖子流行度预测数据集。PoPreRo数据集包含来自罗马尼亚五个不同子reddits的各种帖子样本,共有28,107个数据样本。除了我们新颖的数据集之外,我们还引入了一套竞争性模型作为未来研究的基准。有趣的是,在测试集上,得分最高的模型达到了61.35%的准确率和60.60%的宏观F1分数,这表明PoPreRo上的流行度预测任务非常具有挑战性。基于对Falcon-7B大型语言模型的小样本提示的进一步研究也指向了同样的方向。因此,我们相信PoPreRo是一个宝贵的资源,可用于评估预测罗马尼亚社交媒体帖子流行度的模型。我们已在https://github.com/ana-rogoz/PoPreRo发布了我们的数据集。
分割一切模型 (SAM) 提升了交互式分割的水平,但其在高分辨率图像上的高计算成本限制了其应用。这需要进行下采样以满足 GPU 的限制,从而牺牲了高精度交互式分割所需的细粒度细节。为了解决 SAM 的局限性,我们专注于视觉长度外推,并提出了一种名为 HRSAM 的轻量级模型。该外推方法使在低分辨率上训练的 HRSAM 能够泛化到高分辨率。我们首先找到外推和注意力分数之间的联系,这使我们能够基于 Swin 注意力构建 HRSAM。然后,我们引入了灵活局部注意力 (FLA) 框架,使用 CUDA 优化的高效内存注意力来加速 HRSAM。在 FLA 中,我们实现了 Flash Swin 注意力,与传统的 Swin 注意力相比,速度提高了 35% 以上,并提出了一种仅 KV 填充机制来增强外推能力。我们还开发了 Cycle-scan 模块,该模块使用状态空间模型来有效地扩展 HRSAM 的感受野。我们还在 FLA 中开发了 HRSAM++,通过添加锚点图,为外推提供多尺度数据增强,并在略微增加计算成本的情况下获得更大的感受野。实验表明,在标准训练下,HRSAM 以仅 38% 的延迟超过了之前的 SOTA。通过 SAM 蒸馏,外推使 HRSAM 在更低的延迟下优于教师模型。进一步的微调实现了显著超过之前 SOTA 的性能。