arXiv:2504.03469v1 类型: cross
摘要: 现代X射线源提供的前所未有的X射线 flux 密度为快速动态过程的X射线成像提供了新的时空可能性。利用这些可能性的方法往往会因为有限的扫描速度,例如在时域内重构中,导致i) 有限的数量的投影或空间信息,或者在电光闪烁成像中,ii) 有限的时间点,这使得重构问题变得病态且难以通过经典的重构方法解决。从这种数据中进行4D重构需要样本先验,这些先验可以通过深度学习(DL)纳入其中。最佳的4D X射线成像方法结合了AI的强大功能和X射线传播的物理特性,以应对稀疏视角的挑战。然而,大多数方法并未限制所研究过程的物理特性,即未使用完整的物理模型。在这里,我们提出了4D物理信息优化神经隐式X射线成像(4D-PIONIX),这是一种结合了完整物理模型和最先进的基于DL的重构方法的新颖的4D X射线图像重构方法,用于从稀疏视角进行4D X射线成像。通过从模拟双液滴碰撞的超稀疏时空采集中检索4D信息,我们展示了并评估了我们方法的潜力。我们设想这项工作将为各种4D X射线成像模式打开新的时空可能性,例如时域内重构X射线计算机断层扫描和更多新颖的稀疏采集方法,如X射线多投影成像,这将为流体动力学和复合材料测试等快速4D动态的研究开辟新途径。
arXiv:2504.03454v1 Announce Type: 交叉
摘要:训练大规模的通用语言模型面临着诸多挑战。随着专门专家模型的日益可用,这些模型是从预训练模型微调以特定任务或领域而来的,这提供了一种有前途的替代方案。在现实应用中充分利用这些现有专家模型需要有效的方法来选择或合并最适合特定任务的模型。本文介绍了一种名为 SPECTR 的方法,该方法可以在推理的每个时间步动态组合专家模型。值得注意的是,我们的方法不需要额外的训练,并且能够灵活地在令牌和层级别组合模型。我们的实验结果表明,与替代的无需训练的方法相比,SPECTR 能够提高路由准确性,从而在专家模型的不同领域中提升任务性能。
arXiv:2504.03424v1 代理类型: 跨域
摘要: 我们提出了AI宇宙学家,这是一种旨在自动化宇宙学/天文数据分析和机器学习研究工作流的代理系统。该系统实现了从想法生成到实验评估和研究成果传播的完整流程,模仿了通常由人类研究人员执行的科学研究过程。该系统采用了专门的代理来进行规划、编程、执行、分析和综合,这些代理共同工作以开发新的方法。与传统的自动机器学习系统不同,该AI宇宙学家生成多种实施策略,编写完整代码,处理执行错误,分析结果,并在实验结果的基础上综合新的方法。我们在多个机器学习任务中展示了AI宇宙学家的能力,展示了它如何成功探索解决方案空间,根据实验结果进行迭代,并结合不同方法中的成功元素。我们的结果显示,代理系统可以自动实现研究过程的一部分,有可能加速科学发现。本文所用的代码和实验数据可在GitHub上获得:https://github.com/adammoss/aicosmologist。附录中包含的示例论文展示了该系统从仅使用数据集和任务说明开始,自主生成完整的科学出版物的能力。
arXiv:2504.03420v1 交叉公告类型
摘要:在具有稀疏奖励的环境中处理问题一直是为自主开放性学习环境开发的系统中的关键问题。内在动机可能是帮助深度强化学习算法在这种场景中学习的有效方法。事实上,当外部奖励延迟或不存在时,新颖性或好奇心等内在奖励信号通常被采用以改善探索。在前人工作的基础上,我们提出了一种两层架构来解决在稀疏奖励存在下的政策学习问题,该架构交替进行“由内在驱动的”探索和自主子目标生成阶段,以及稀疏奖励目标导向的政策学习阶段。这一想法是构建多个专门针对特定子路径的小网络,并将它们用作未来探索的起点,而无需从头开始探索之前学习的路径。在Gym SuperMarioBros环境中,系统的不同版本没有考虑任何额外的外部奖励进行了训练和测试。结果表明了我们方法的有效性,并强调了自主对环境进行分区以生成通向最终目标的有效路径的重要性。
arXiv:2504.03380v1 类别:交叉学科
摘要:基于推理的强化学习(Reasoning-Oriented Reinforcement Learning, RORL)增强了大规模语言模型(Large Language Models, LLMs)的推理能力。然而,由于RORL中奖励的稀疏性,有效的训练高度依赖于选择适当难度的问题。尽管循序渐进的学习试图通过调整难度来解决这一问题,但这种方法通常依赖于静态时间表,而且即使最新的在线过滤方法也缺乏理论依据和对其有效性的系统理解。在本文中,我们从理论上和实验上证明,使用训练模型在飞速实现中间准确度的问题来制定批次可以最大化RORL训练的效果,即平衡在线难度过滤。我们首先推导出初始策略与最优策略之间的KL散度下界可以用采样准确度的方差来表示。基于这些见解,我们证明了平衡过滤可以最大化这个下界,从而提高性能。跨五个具有挑战性的数学推理基准的实验结果显示,平衡在线过滤在AIME上额外提高了10%,并且在平均情况下优于裸GRPO 4%。此外,进一步的分析显示了样本效率和训练时间效率的提高,在裸GRPO的60%训练时间内达到最大奖励,在训练集的体积上也有超出。
arXiv:2504.03360v1 类型: cross
摘要:在边缘设备上部署大型语言模型(LLMs)面临着计算限制、内存限制、推理速度和能源消耗等重大挑战。模型量化已成为一种关键技术,通过减少模型大小和计算开销,使得高效地进行LLM推理成为可能。在此研究中,我们对Ollama库中的28个量化LLM进行了全面分析,该库默认使用后训练量化(PTQ)和权重唯一量化技术,并在具有4GB RAM的Raspberry Pi 4边缘设备上部署。我们在多个量化级别和任务类型上评估了能源效率、推理性能和输出准确性。这些模型在五个标准化数据集(常识问答(CommonsenseQA)、BIG-Bench Hard、真实问答(TruthfulQA)、GSM8K和HumanEval)上进行了基准测试,并采用高分辨率的硬件级能源测量工具来捕捉实际的能源消耗。我们的研究发现,不同量化设置之间的能源效率、推理速度和准确性之间的权衡关系,并强调了针对资源受限环境优化LLM部署的配置。通过将硬件级能源分析与LLM基准测试相结合,本研究为可持续人工智能提供了可操作的见解,弥补了现有能源感知LLM部署研究中的关键空白。
arXiv:2504.03353v1 通告类型: 交叉学科
摘要:我们提出了一种完全去中心化的多智能体世界模型,该模型通过时间扩展的集体预测编码同时实现了符号的生成以便于通信和协调行为。与之前的研究分别专注于通信或协调不同方面的情况不同,我们的方法能够在两者之间同时实现。我们的方法将世界模型与通信渠道相结合,使智能体能够预测环境动力学,从不完整观察中估算状态,并通过对比学习实现双向消息交换的消息对齐,从而共享关键信息。通过一个两智能体轨迹绘制任务,我们展示了在智能体具有不同感知能力的情况下,基于通信的方法在非通信模型中表现更优,达到了在中心化模型之后的第二好协调结果。重要的是,我们的去中心化方法通过防止直接访问其他智能体的内部状态来实现,促进了更具有意义的符号系统的生成,这些符号系统能够准确反映环境状态。这些发现证明了去中心化通信对于支持协调并开发环境共享表示的有效性。
arXiv:2504.03342v1 宣告类型:交叉
摘要:深度神经网络(DNNs)在遇到分布外(OOD)样本时常常表现出过大的信心,这给部署带来了重大挑战。由于DNNs是在分布内(ID)数据集上进行训练的,因此ID样本通过DNNs的信息流必然与OOD样本不同。在本文中,我们提出了一种基于熵的分布外检测(EOOD)框架。EOOD首先识别出信息流差异更为明显的特定区块,使用ID样本和伪OOD样本进行识别。然后,它计算所选区块的条件熵作为OOD置信度评分。在各种ID和OOD设置下进行的全面实验显示,EOOD在OOD检测方面的有效性,并优于现有最先进的方法。
arXiv:2504.03329v1 交叉公告类型
摘要:本文研究了使用文本转音频(TTA)模型生成现实数据集的有效提示策略设计。我们还分析了不同技术以提高这些数据集在声音分类任务中的实用性。通过使用两种TTA模型评估两个声音分类数据集,我们应用了一系列提示策略。我们的研究结果表明,针对特定任务的提示策略在数据生成方面显著优于基本提示方法。此外,使用不同TTA模型生成的数据集合并被证明比仅仅增加训练数据集大小更有效地提高分类性能。总体而言,我们的结果强调了这些方法作为使用合成数据的有效数据增强技术的优势。
arXiv:2504.03328v1 类型:交叉
摘要:策略优化算法在许多领域中都至关重要,但也因其与马尔可夫决策过程相关的复杂计算以及折现和平均奖励设置的多样性而难以理解和实现。本文提出了一种统一框架,利用广义遍历性和扰动分析来阐明和增强这些算法的应用。广义遍历性理论解释了随机过程的稳态行为,有助于理解折现和平均奖励。扰动分析深入探讨了策略优化算法的基本原则。我们使用这种框架来识别常见的实现错误,并展示了正确的做法。通过线性二次调节器问题的案例研究,我们说明了算法设计中的微小变化如何影响实现结果。我们的目的是使策略优化算法更加易于访问,并减少其实用中的误用。