arXiv:2205.10016v3 宣布类型: 替换
摘要:代理的数量可以成为控制多智能体强化学习(MARL)任务难度的有效课程变量。现有工作通常使用手动定义的课程,如线性方案。我们在应用现有的基于奖励的自动课程学习方法时发现两个潜在的问题:(1)用于衡量任务难度的期望回合回报具有很高的方差;(2)在增加代理数量能提高回报率的许多MARL任务中,归因难度可能会加剧,这是一种常见的现象。为了应对这些问题,我们提出了通过使用基于TD误差的“学习进度”度量来控制课程,以及让课程从初始上下文分布逐步过渡到最终的任务特定分布。由于我们的方法维护一个代理数量的分布,并测量学习进度而不是绝对性能,而绝对性能往往会随着代理数量的增加而提高,因此我们解决了问题(2)。此外,学习进步度量自然地通过汇总回报解决了问题(1)。在三个具有挑战性的稀疏奖励MARL基准中,我们的方法优于当前最先进的基线方法。
arXiv:2505.10559v1 Announce Type: 跨学科
摘要:除了神经网络的 Scaling 规律之外,关于大型语言模型(LLMs)背后的规律知之甚少。我们引入了神经热力学定律(NTL)——一个新的框架,提供了对 LLM 训练动力学的新见解。在理论方面,我们证明在河谷损失景观假设下,关键的热力学量(例如,温度、熵、比热、热传导)和经典热力学原理(例如,热力学三大定律和等分定理)自然地出现。在实践方面,这种科学视角为设计学习率调度提供了直观的指导。
arXiv:2505.10557v1 类型: cross
摘要:自然语言图像字幕数据集广泛用于训练大型多模态模型,主要集中在自然场景上,而忽略了对问题解决至关重要的数学图表的复杂细节,阻碍了当前多模态大型语言模型在多模态数学推理方面的进步。为了解决这一问题,我们提出使用代码作为跨模态对齐的监督,因为代码本身包含了生成相应图表所需的所有信息,从而建立了两个模态之间精确的联系。具体而言,我们采用模型在环的方法共同开发了图像到代码模型和数据集,从而生成了一个图像到代码模型,命名为FigCodifier和ImgCode-8.6M数据集,这是迄今为止规模最大的图像-代码数据集。此外,我们利用FigCodifier合成了新的数学图表,然后构建了MM-MathInstruct-3M,这是一个高质量的多模态数学指令微调数据集。最后,我们推出了使用ImgCode-8.6M进行跨模态对齐训练的MathCoder-VL,并随后在MM-MathInstruct-3M上进行多模态数学问题解决的微调。我们的模型在所有六个指标上均实现了新的开源SOTA。值得注意的是,在MathVista的几何问题解决子集中,我们的模型超越了GPT-4o和Claude 3.5 Sonnet,分别实现了8.9%和9.2%的改进。数据集和模型将在https://github.com/mathllm/MathCoder发布。
arXiv:2505.10551v1 Announce Type: cross
摘要:随着photorealistic扩散模型的发展,部分或完全基于合成数据训练的模型逐渐取得了更好的成果。然而,扩散模型仍然会生成现实中不存在的图像,例如浮在空中的狗或者纹理不真实的图像。我们将可行性定义为合成图像中的属性在现实世界中是否真实存在;包含违反这一标准属性的合成图像被视为不可行的图像。直观上,不可行的图像通常被认为是离分布的;因此,使用这类图像进行训练可能阻碍模型对现实世界数据的泛化能力,所以尽可能排除这些图像的训练集是合理的。但是,可行性真的很关键吗?在这篇论文中,我们探究在基于CLIP的分类器生成合成训练数据时是否需要强制执行可行性,重点研究了三个目标属性:背景、颜色和纹理。我们引入了VariReal流水线,该流水线根据大型语言模型生成的文本提示对给定的源图像进行最小化编辑,以包含可实现或不可实现的属性。我们的实验表明,可行性对LoRA微调后的CLIP性能的影响较小,在三个细粒度数据集中,最高1准确率差异约为0.3%。此外,属性对可实现/不可实现图像是否能够对抗性地影响分类性能也很重要。最后,训练数据集中混用可实现和不可实现的图像对性能的影响与使用完全可实现或不可实现的训练数据集相比并无显著差异。
arXiv:2505.10547v1 交叉发布类型: cross
摘要:基础模型可以在危险场景中提供稳健的高级推理,这些场景超出了机器人训练数据的范围,即分布外(OOD)故障。然而,由于大规模视觉和语言模型的高推理延迟,当前方法依赖于手动定义的干预策略来实现后备,从而缺乏规划可泛化的、语义安全的运动的能力。为了克服这些挑战,我们提出了一种名为FORTRESS的框架,该框架可以实时生成和推理语义安全的后备策略以防止分布外故障。在正常操作的低频次时,FORTRESS使用多模态推理器来识别目标并预测失败模式。当运行时监控器触发后备响应时,FORTRESS会迅速合成回退计划,并实时推理和避开语义不安全的区域。通过将开放世界、多模态推理与动力感知规划相结合,我们可以消除硬编码的后备和人工安全干预的需求。FORTRESS在模拟基准和真实世界的ANYmal机器人数据上的安全性分类准确性上优于慢推理模型的即席提示,并且进一步提高了模拟和四旋翼飞行器硬件中城市导航系统的安全性和规划成功。
arXiv:2505.10537v1 类型: cross
摘要:O-RAN 架构通过采用 RAN 软件化和解聚合的概念,正在改变蜂窝网络,以实现基于数据的网络监控和控制。这种管理是通过 RICs 实现的,RICs 通过 xApps 和 rApps 实现近实时和非实时的网络控制。然而,它们面临着一些限制,包括在 RAN 与 RIC 之间数据交换的延迟 overhead,这限制了实时监控,并且由于隐私和安全限制,无法访问用户原始数据,这阻碍了诸如波束成形和频谱分类等用例。在本文中,我们利用 dApps 的概念实现了 LibIQ,这是一种新型的 RF 信号库,通过提供读取 I/Q 样本作为时间序列的功能、创建数据集以及通过图表和频谱图可视化时间序列数据的功能,实现了高效的时间序列频谱监测和信号分类。由于 LibIQ,I/Q 样本可以高效地处理以检测外部 RF 信号,随后这些信号在库内部使用 CNN 进行分类。为了实现准确的频谱分析,我们创建了一个广泛的基于时间序列的 I/Q 样本数据集,这些样本是在 Colosseum 网络仿真器和 OTA 测试床上的一个自定义 dApp 运行时捕获的不同信号类型的代表。我们通过在具有不同中心频率、时间窗口和外部 RF 信号的异构场景中部署 LibIQ 来评估我们的模型。在实时分析中,该模型对处理后的 I/Q 样本进行了分类,在所有场景中识别信号类型的准确率平均约为 97.8%。在接受后,我们承诺将发布 LibIQ 和创建的数据集,使其作为一个公开可用的框架。
arXiv:2505.10522v1 宣布类型:横跨领域
摘要:强化学习(RL)在机器人操作中展现了显著的潜力,但面临着样本效率低和缺乏可解释性的问题,这限制了其在实际场景中的应用。能够使智能体获得更深入的理解并在多种工作场景中更高效地适应是至关重要的,而战略性地利用知识是这一过程中的关键因素。本文提出了一个名为Knowledge Capture, Adaptation, and Composition(KCAC,知识捕获、适应与组合)的框架,通过跨任务教学有序学习系统地将知识转移整合到RL中。KCAC在CausalWorld基准测试中使用了一个双块堆叠任务进行评估,这是一个复杂的机器人操作环境。据我们所知,现有的RL方法无法有效解决这一任务,反映了知识捕获的不足。在本文中,我们通过去除刚性约束和严格的顺序,重新设计基准的奖励函数,使智能体同时最大化总奖励,并允许灵活的任务完成。此外,我们定义了两个自设计的子任务,并实现了一个结构化的跨任务教学有序学习体系,以促进高效学习。结果,我们的KCAC方法在训练时间上降低了40%,同时任务成功率提高了10%,相较于传统RL方法。通过广泛的评估,我们识别出了优化学习效率的关键教学有序设计参数,子任务选择、过渡时机和学习率,并为基于教学有序学习的RL框架提供了概念指导。这项工作为RL和机器人学习的教学有序设计提供了有价值的见解。
arXiv:2505.10518v1 类型: cross
摘要:多令牌预测已经 emerged 作为一种提高语言模型预训练的有前途的目标,但其优势并未一致地推广到微调等其他设置中。在本文中,我们提出了一种名为 MuToR 的简单且有效的方法,该方法将可学习的寄存器令牌交错到输入序列中,每个寄存器令牌的任务是预测未来的目标。与现有方法相比,MuToR 具有以下几个关键优势:它仅引入了微不足道数量的额外参数,不需要架构更改——确保与即用型预训练语言模型兼容——并且仍然与下一个令牌的预训练目标保持一致,使其特别适合监督微调。此外,它自然支持可扩展的预测时间范围。我们展示了 MuToR 在各种用例中的有效性和灵活性,包括监督微调、参数高效微调(PEFT)和预训练,涵盖了语言和视觉领域的具有挑战性的生成任务。我们的代码将在以下地址提供:https://github.com/nasosger/MuToR。
arXiv:2505.10515v1 宣告类型: cross
摘要:近年来,事后解释方法开始通过将模型输出归因于输入特征来提高模型的透明度。然而,这些方法因对特定神经网络架构和数据模态的依赖性而面临挑战。现有的可解释人工智能(XAI)框架试图解决这些挑战,但仍然存在一些限制。这些限制包括硬编码实现导致对不同模型架构和数据模态的灵活性有限,由于归因方法的层特定操作要求而导致支持的XAI方法种类有限,以及因缺乏评估和优化阶段而导致解释推荐不完善。因此,这些限制妨碍了XAI技术在真实世界应用中的采用,使实践者难以在其领域中选择最佳解释方法。为了解决这些限制,我们引入了**PnPXAI**,这是一种以插件和即用(PnP)方式支持多种数据模态和神经网络模型的通用XAI框架。PnPXAI自动检测模型架构,推荐适用的解释方法,并优化超参数以获得最佳解释。我们通过用户调查验证了该框架的有效性,并展示了其在包括医学和金融在内的多个领域的通用性。
arXiv:2505.10483v1 类型:交叉学科
摘要:统一多模态理解和生成模型的出现正在迅速引起关注,因为它们能够在增强指令遵循能力的同时,减少模型冗余。然而,缺乏一个统一的评估框架,这将使评估既优雅又简化,且具有整体性。目前的模型在多个特定任务的基准测试上进行评估,但仍存在诸多局限性,例如缺乏总体结果、额外评估模型的错误、依赖大量标注图像、缺乏多样性的基准测试以及评估指令遵循的有限指标。为应对这些挑战,我们引入了UniEval,这是第一个专为统一多模态模型设计的评估框架,不需要额外的模型、图像或注释。这便于简化且统一的评估过程。UniEval框架包含一个综合性基准(UniBench,支持统一生成模型和视觉生成模型)以及相应的UniScore指标。UniBench包含81个细粒度标签,贡献于高多样性。实验结果表明,UniBench比现有基准更具挑战性,而UniScore则与人工评估高度一致,超越现有指标。此外,我们广泛评估了最新的统一生成和视觉生成模型,揭示了Universal的独特价值。