arXiv 论文列表

作者: Zhuoning Xu, Jian Xu, Mingqing Zhang, Peijie Wang, Chao Deng, Cheng-Lin Liu

arXiv:2504.04789v1 宣布类型: 新颖摘要: 作为人类生存和发展的重要战略支柱产业，现代农业面临着双重挑战：优化生产效率和实现可持续发展。在加剧的气候变化背景下，频繁出现极端天气事件，农业生产系统的不确定性风险正呈指数级增长。为应对这些挑战，本研究提出了一个创新的**M**ultimodal **A**gricultural **A**gent **A**rchitecture (MA3)，该架构利用跨模态信息融合和任务协作机制实现智能农业决策。本研究构建了一个涵盖五大任务的多模态农业代理数据集，其中包括分类、检测、视觉问答（VQA）、工具选择和代理评估。我们提出了一个统一的骨干网络，用于甘蔗病害分类和检测工具的设计，并且构建了一个甘蔗病害专家模型。通过整合一个创新的工具选择模块，我们开发了一个多模态农业代理，能够在分类、检测和VQA任务中有效执行任务。此外，我们引入了一个多维度的定量评估框架，并在评估数据集上对整个架构进行了全面评估，从而验证了MA3在农业场景中的实用性和鲁棒性。本研究为农业代理的发展提供了新的见解和方法，具有重要意义的理论和实际影响。在接受后，我们的源代码和数据集将向公众公开。

发布时间: 4/8/2025

查看原文

弱对强：训练弱元代理以利用强执行者

作者: Fan Nie, Lan Feng, Haotian Ye, Weixin Liang, Pan Lu, Huaxiu Yao, Alexandre Alahi, James Zou

arXiv:2504.04785v1 Announce Type: 新摘要：有效地利用当代大型语言模型（LLMs）的能力变得越来越具有挑战性，特别是在直接微调成本高昂且通常不切实际的情况下。现有的无需训练的方法，包括手动或自动化设计的工作流，通常需要大量的人力投入或产生次优结果。本文提出了Weak-for-Strong Harnessing（W4S），这是一种新颖的框架，将较小且成本效益高的语言模型定制化，以设计和优化用于利用更强模型的工作流。W4S 将工作流设计公式化为多轮马尔可夫决策过程，并引入了代理工作流优化（RLAO）的强化学习，以训练一个弱元代理。通过与环境的迭代交互，元代理学会在无需人工干预的情况下设计越来越有效的复杂链式工作流。实验结果表明，W4S 的优越性在于我们的 7B 元代理，仅用一个 GPU 小时进行训练，相比于最强的基线模型，在 11 个基准测试中性能提高了 2.9% 到 24.6%，成功地提升了 GPT-3.5-Turbo 和 GPT-4o 等尖端模型的性能。值得注意的是，W4S 在看到的任务和未见过的任务上都表现出强大的泛化能力，提供了一种直接微调强模型的高效、高性能的替代方案。

发布时间: 4/8/2025

查看原文

合成数据生成与多步RL推理及工具使用

作者: Anna Goldie, Azalia Mirhoseini, Hao Zhou, Irene Cai, Christopher D. Manning

arXiv:2504.04736v1 通知类型: 新摘要: 受强化学习已证明可以提升大型语言模型性能的成果启发，传统方法如RLHF或RLAIF都将问题视为单步处理。随着对更复杂推理和自主任务的关注转移，语言模型必须通过多次文本生成、推理和环境交互来生成解决方案。我们提出了一种针对多步优化场景的合成数据生成和RL方法。这种方法被称为逐步强化学习(SWiRL)，它逐步生成多步推理和工具使用数据，并从这些数据中进行学习。它采用一种简单的逐步分解方法，将每个多步轨迹分解为多个子轨迹，每个子轨迹对应原始模型的一个动作。然后在这些子轨迹上应用合成数据过滤和RL优化。我们在多个多步工具使用、问答和数学推理任务上评估了SWiRL。我们的实验证明，SWiRL分别在GSM8K、HotPotQA、CofCA、MuSiQue和BeerQA上的相对准确度上分别超过了基线方法21.5%、12.3%、14.8%、11.1%和15.3%。令人兴奋的是，该方法在任务之间表现出泛化能力：例如，仅在HotPotQA（文本问答）上进行训练，在GSM8K（一个数学数据集）上的零样本性能上相对提高了16.9%。

发布时间: 4/8/2025

查看原文

从自产数据泛化：超越人类约束的模型训练

作者: Alfath Daryl Alhajir, Jennifer Dodgson, Joseph Lim, Truong Ma Phi, Julian Peh, Akira Rafhael Janson Pattirane, Lokesh Poovaragan

arXiv:2504.04711v1 宣告类型: 新摘要: 当前的大语言模型（LLMs）受到人类衍生的训练数据的限制，并且由于单一抽象层次的限制，无法做出明确的真实判断。本文介绍了一种新的框架，在这种框架中，AI模型通过直接与其环境交互自主生成和验证新的知识。这种方法的核心是一种无边界、无法作弊的数值奖励——例如附带的磁盘空间或追随者数量——这种奖励指导学习，而无需设定人类基准。AI代理通过迭代生成策略和可执行代码来最大化这个指标，成功的成果则作为自我重新训练和逐步泛化的基础。为了缓解模型崩塌和预热启动问题，该框架强调实证验证胜过文本相似性，并通过GRPO支持微调。系统架构采用模块化的代理进行环境分析、策略生成和代码合成，从而实现可扩展的实验。本文概述了一条通往自我改进的AI系统的发展路径，这些系统能够超越人类施加的限制，朝着自主通用人工智能的方向发展。

发布时间: 4/8/2025

查看原文

HypRL：超属性控制策略的强化学习

作者: Tzu-Han Hsu, Arshia Rafieioskouei, Borzoo Bonakdarpour

arXiv:2504.04675v1 通告类型: 新摘要: 我们研究了学习用于遵循由超性质指定的复杂任务的控制策略的问题。使用超性质的原因在于它们在正式指定多智能体系统的要求以及需要在多个执行轨迹中表达性的要求（例如隐私和公平性）方面表现出极大的能力。给定一个具有未知转换的马尔可夫决策过程 \(M\)（代表环境）和一个超线性时逻辑(HyperLTL)公式 \(\varphi\)，我们的方法首先使用斯科莱姆化来处理 \(\varphi\) 中的量词交替。我们引入了针对 \(\varphi\) 的 HyperLTL 的定量鲁棒性函数，用于定义 \(M\) 的有限轨迹的奖励。最后，我们利用适当的强化学习算法来学习 (1) \(\varphi\) 中每个轨迹量词的策略，以及 (2) \(M\) 的转换的概率分布，这些策略能够最大化预期奖励，从而最大化 \(\varphi\) 在 \(M\) 中得到满足的概率。我们介绍了关于 (1) 保持安全的多智能体路径规划，(2) 资源分配中的公平性，以及 (3) 预对应问题 (PCP) 的一系列案例研究。

发布时间: 4/8/2025

查看原文

vat中的AI：代理沙盒化和可解释性下的世界建模基本限制

作者: Fernando Rosas, Alexander Boyd, Manuel Baltieri

arXiv:2504.04608v1 公告类型: 新增摘要: 近期的研究提出了使用世界模型来生成可控的虚拟环境，以便在部署AI代理之前对其进行测试，以确保其可靠性和安全性。然而，准确的世界模型通常具有高计算需求，这可能会严重限制此类评估的范围和深度。受到经典的“ vat 中的大脑”思想实验的启发，这里我们研究了简化世界模型的方法，这些方法对正在评估的AI代理保持中立。通过遵循计算力学的原则，我们的方法揭示了在构建世界模型过程中效率与可解释性之间的基本权衡，表明单一的世界模型无法优化所有 desirable 特性。基于这种权衡，我们识别出了建立世界模型的方法，这些方法可以最小化内存需求、界定可学习的边界，或者允许追踪不良结果的原因。通过这种方式，本工作确定了世界建模的基本限制，从而提出了可操作的指导方针，这些指导方针影响了与有效代理评估相关的核心设计选择。

发布时间: 4/8/2025

查看原文

捕捉AI的注意力：重复、幻觉、偏见以及其他物理现象

作者: Frank Yingjie Huo, Neil F. Johnson

arXiv:2504.04600v1 通告类型: 新摘要: 我们推导出一种基于第一性原理的物理理论，解释了大规模语言模型（LLMs）"魔法"（例如，ChatGPT、Claude）核心AI引擎的基本注意头。该理论允许对输出重复、幻觉和有害内容等突出的AI挑战进行定量分析，并且适用于训练和微调带来的偏见。其预测结果与大规模LLM输出一致。其2体形式表明为什么大规模语言模型表现如此出色，但暗示一个更普遍的3体注意可能会使AI表现得更好。其与自旋浴的相似性意味着现有的物理学专业知识可以立即被利用，以帮助社会确保AI是值得信赖且对抗操控具有韧性的。

发布时间: 4/8/2025

查看原文

SECUQUE: 一个评估实际金融分析能力的标准基准

作者: Noga Ben Yoash, Meni Brief, Oded Ovadia, Gil Shenderovitz, Moshik Mishaeli, Rachel Lemberg, Eitam Sheetrit

arXiv:2504.04596v1 类型: 新增摘要: 我们介绍了SECQUE，一个全面的基准测试，用于评估大型语言模型（LLMs）在金融分析任务中的表现。SECQUE包括565个由专家编写的问答，涵盖了SEC披露文件分析的四个关键类别：比较分析、比率计算、风险评估和财务洞察生成。为了评估模型性能，我们开发了SECQUE-Judge，一个利用多个基于LLM的评估机制，该机制与人工评估表现出强烈的契合度。此外，我们还对多个模型在我们基准测试中的性能进行了详细分析。通过将SECQUE公开展示，我们旨在促进金融AI领域的进一步研究和进步。

发布时间: 4/8/2025

查看原文

复杂任务中的知识图谱-RAG和符号验证层次规划

作者: Cristina Cornelio, Flavio Petruzzellis, Pietro Lio

arXiv:2504.04578v1 机器类型: 新摘要: 大型语言模型（LLMs）在机器人规划方面展现出了潜力，但在应对长期任务和复杂任务时经常遇到困难，尤其是在需要外部知识的专门环境中表现尤为不足。虽然层级规划和检索增强生成（RAG）能够解决一些这些问题，但它们单独使用时仍然不够充分，需要更深入的整合以实现更可靠的系统。为了实现这一目标，我们提出了一种神经符号方法，该方法通过基于知识图谱的RAG增强基于LLMs的规划者，用于层级计划生成。该方法将复杂任务分解为可管理的子任务，并进一步扩展为可执行的基本操作序列。为了确保形式上的正确性和合适的分解，我们整合了一个符号验证器，该验证器还作为故障检测器，通过对接预期和观察到的世界状态。我们的基线方法评估表明，在不同复杂性和不同LLMs的任务中，通过整合层级规划、符号验证和RAG可以获得一致的显著优势。此外，我们的实验设置和新颖的评估指标不仅验证了我们方法在复杂规划方面的有效性，还能作为评估LLMs的推理和组合能力的工具。

发布时间: 4/8/2025

查看原文

AGITB：评估人工智能通用性的信号级别基准

作者: Matej \v{S}progar

arXiv:2504.04430v1 宣告类型: 新摘要: 尽管在机器学习方面取得了显著进展，但当前的AI系统仍然无法达到真正的人类智能水平。虽然大型语言模型（LLMs）在模式识别和响应生成方面表现出色，但它们缺乏真正的理解能力，这是人工通用智能（AGI）的一个重要因素。现有的AGI评估方法未能提供一种实际、渐进和信息性的度量标准。本文介绍了人工通用智能测试床（AGITB），它包含十二个严格的测试，这些测试构成了认知能力潜在出现的信号处理级基础。AGITB通过对模型在时间上预测二进制信号的能力进行评估，而不依赖于符号表示或预训练。与基于语言或感知的高级测试不同，AGITB侧重于反映生物智能的核心计算不变量，如确定性、敏感性和泛化。测试床假设没有先验偏见，独立于语义意义，并通过暴力破解或记忆确保不可解。设计上，人类可以通过AGITB，但目前没有任何一个AI系统能够满足其标准，使AGITB成为指导和识别向AGI迈进的过程的有力基准。

发布时间: 4/8/2025

查看原文