arXiv 论文列表

作者: Riccardo Lo Bianco, Willem van Jaarsveld, Jeroen Middelhuis, Luca Begnardi, Remco Dijkman

arXiv:2504.19933v1 宣告类型: 新摘要: 动态任务分配问题(DTAP)涉及在实时匹配资源以最小化某些目标（如资源成本或任务周期时间）。在本文中，我们考虑了一种DTAP变体，其中每个任务是一个由随机活动序列组成的情形。在这种DTAP中，需要做出的决策是如何分配员工来处理活动，以便尽可能快速地响应请求。近年来，深度强化学习（DRL）已成为解决这种DTAP变体的一种有前途的工具，但大多数研究仅限于解决小型合成问题，忽视了现实世界用例带来的挑战。为弥合这一差距，本文提出了一种基于DRL的决策支持系统（DSS）来解决大规模的DTAP。为此，我们引入了一个带有两个新颖元素的DRL代理：一种可以有效表示任何DTAP的图结构作为观察和操作，以及一个可证明等同于最小化任务平均周期时间目标的奖励函数。这两项创新的结合使代理能够学会有效的且具有泛化能力的任务分配策略。提出的DSS在五个参数来自实际日志并通过过程挖掘提取的DTAP实例上进行了评估。实验评估表明，提出的DRL代理在所有DTAP实例中均能匹配或超越最佳基线，并在不同时间跨度和不同实例上泛化。

发布时间: 4/29/2025

查看原文

AI代理能够设计和实施药物发现管道吗？

作者: Khachik Smbatyan, Tsolak Ghukasyan, Tigran Aghajanyan, Hovhannes Dabaghyan, Sergey Adamyan, Aram Bughdaryan, Vahagn Altunyan, Gagik Navasardyan, Aram Davtyan, Anush Hakobyan, Aram Gharibyan, Arman Fahradyan, Artur Hakobyan, Hasmik Mnatsakanyan, Narek Ginoyan, Garik Petrosyan

arXiv:2504.19912v1 宣告类型: 新摘要：人工智能的迅速发展，特别是基于大型语言模型（LLMs）的自主代理系统，为通过改进基于计算的药物发现模型并减少对昂贵实验的依赖提供了新的机会。当前的基于代理的AI系统在解决编程挑战和进行研究方面表现出色，这表明它们具有开发能够解决复杂问题（如制药设计和药物发现）软件的潜在能力。本文介绍了DO挑战，这是一个基准测试，旨在评估AI代理在单个复杂问题上的决策能力，该问题类似于虚拟筛选场景。该基准测试挑战系统独立开发、实施和执行从大量数据集中识别有希望的分子结构的有效策略，同时导航化学空间、选择模型并在多目标背景下管理有限资源。我们还讨论了基于提出的基准测试的DO挑战2025比赛，展示了参赛的人类选手探索的各种策略。此外，我们介绍了Deep Thought多代理系统，该系统在基准测试中表现出色，超过了大多数人类团队。在测试的语言模型中，Claude 3.7 Sonnet、Gemini 2.5 Pro和o3在主要代理角色中表现最佳，而GPT-4o和Gemini 2.0 Flash在辅助角色中表现有效。尽管取得了一定的成果，但该系统的性能仍然低于专家设计的解决方案，并且显示出高不稳定性，这凸显了AI驱动方法在转变药物发现和更广泛科学研究方面的潜力和当前局限性。

发布时间: 4/29/2025

查看原文

学习效率与对称性破缺相遇

作者: Yingbin Bai, Sylvie Thiebaux, Felipe Trevizan

arXiv:2504.19738v1 Announce Type: 新摘要：利用图神经网络的基于学习的规划器可以在大规模搜索空间中学习有效的搜索指导，然而它们在解决对称性问题方面的潜力仍未得到充分探索。本文中，我们提出了一种图表示方法，结合了学习效率和检测对称性的能力，并介绍了两种剪枝方法：操作剪枝和状态剪枝，旨在搜索过程中管理对称性。将这些技术集成到Fast Downward中，在最新版本的IPC学习轨道数据集中首次超越了LAMA。代码已发布在：https://github.com/bybeye/Distincter。

发布时间: 4/29/2025

查看原文

从大型语言模型推理到自主AI代理：一篇全面回顾

作者: Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah

arXiv:2504.19678v1 评测类型：新摘要：大型语言模型和自主AI代理已经迅速发展，导致了一系列多样的评估基准、框架和协作协议的出现。然而，当前的景观仍然支离破碎，缺乏统一的分类或全面的综述。因此，我们对2019年至2025年间开发的基准进行了并排比较，这些基准评估了这些模型和代理在多个领域的表现。此外，我们还提出了一种涵盖一般知识和学术知识推理、数学问题解决、代码生成和软件工程、事实本体论和检索、领域特定评估、多模态和具身任务、任务编排和互动评估的约60种基准的分类法。此外，我们还回顾了2023年至2025年间介绍的AI代理框架，这些框架结合了大型语言模型和模块化工具包，以实现自主决策和多步推理。此外，我们还介绍了自主AI代理在材料科学、生物医学研究、学术创意、软件工程、合成数据生成、化学推理、数学问题解决、地理信息系统、多媒体、医疗保健和金融领域的实际应用。然后，我们调查了关键的代理到代理协作协议，即代理通信协议（ACP）、模型上下文协议（MCP）和代理到代理协议（A2A）。最后，我们讨论了未来研究的建议，重点关注先进的推理策略、多代理LLM系统中的失败模式、自动科学发现、通过强化学习集成的动态工具集成、集成搜索能力以及代理协议中的安全漏洞。

发布时间: 4/29/2025

查看原文

大型语言模型辅助自动化算法搜索的fitness景观

作者: Fei Liu, Qingfu Zhang, Xialiang Tong, Mingxuan Yuan, Kun Mao

arXiv:2504.19636v1 公告类型: 新摘要: 大型语言模型(LLMs)在算法设计方面展现了显著的潜力。然而，在将其整合到用于迭代算法搜索的搜索框架中时，决定搜索行为的潜在适应度景观——这一关键方面仍然未被充分探索。在本文中，我们使用图为基础的方法来说明和分析大型语言模型辅助算法搜索(LLM-assisted Algorithm Search, LAS)的适应度景观，其中节点表示算法，边表示它们之间的转换。我们在六个算法设计任务和六个常用的大型语言模型上进行了广泛的评估。我们的研究发现，LAS的景观具有高度的多模态性和不规则性，尤其是在组合优化任务中，不同任务和大型语言模型之间的结构变异明显。例如，在启发式设计任务中，表现出色的算法紧密集聚在一起，而在符号回归任务中，则显示为稀疏、散开的分布。此外，我们展示了种群大小如何影响探索与利用之间的权衡以及精英算法的演变轨迹。这些洞察不仅深化了我们对LAS景观的理解，还为设计更有效的LAS方法提供了实用的指导。

发布时间: 4/29/2025

查看原文

从证据到信念：一种基于贝叶斯 epistemology 的语言模型方法

作者: Minsu Kim, Sangryul Kim, James Thorne

arXiv:2504.19622v1 宣告类型: 新摘要: 本文从贝叶斯证识论的角度探讨了语言模型的知识。我们探索了语言模型在面对不同信息量和可靠性的证据时，如何调整其自信程度和响应。为了研究这些特性，我们创建了一个包含不同类型证据的数据集，并通过口头表达的自信程度、标记概率和采样来分析语言模型的响应和自信程度。我们观察到，语言模型并不总是遵循贝叶斯证识论：当面对真实证据时，语言模型很好地遵循了贝叶斯确证假设，但在遇到不同类型的证据时，却未能遵守其他贝叶斯假设。此外，我们还证明了，在面对强烈证据时，语言模型可能会表现出很高的自信程度，但这并不总是保证高准确性。我们的分析还表明，语言模型对黄金证据存在偏见，并且其性能会根据不同无关程度的不同而变化，这有助于解释它们为何会偏离贝叶斯假设。

发布时间: 4/29/2025

查看原文

GVPO：组方差策略优化在大语言模型后训练中的应用

作者: Kaichen Zhang, Yuzhong Hong, Junwei Bao, Hongfei Jiang, Yang Song, Dingqian Hong, Hui Xiong

arXiv:2504.19599v1 通知类型: 新摘要: 训练后调整在优化和对齐大型语言模型以满足特定任务和人类偏好方面扮演着至关重要的角色。尽管最近在后训练技术方面的进展，如组相对策略优化（GRPO），通过增加相对奖励评分的采样来实现更好的性能，但这些方法往往受到训练不稳定性的困扰，这限制了它们的实用应用。为了应对这一挑战，我们提出了一种组方差策略优化（GVPO）。GVPO直接将KL约束奖励最大化分析解纳入其梯度权重中，确保与最优策略的对齐。该方法提供了直观的物理解释：其梯度反映了隐含奖励中隐式奖励中心距离与实际奖励中心距离的均方误差。GVPO提供了两个关键优势：（1）它保证了一个唯一的最优解，即KL约束奖励最大化目标；（2）它支持灵活的采样分布，避免了策略匹配和重要性采样的限制。通过结合理论保证和实际适应性，GVPO为可靠的和多功能的LLM后训练建立了新的范式。

发布时间: 4/29/2025

查看原文

面向QoS感知负载均衡的图强化学习在开放无线接入网络中的应用

作者: Omid Semiari, Hosein Nikopour, Shilpa Talwar

arXiv:2504.19499v1 宣布类型: 新摘要: 下一代无线蜂窝网络预计将为新兴无线应用提供无与伦比的服务质量(QoS)，从而需要严格的性能保证，例如链路级数据速率。满足这些QoS要求的一个关键挑战是预防小区拥塞，这涉及平衡负载以确保每个小区有足够的无线资源来为其指定的用户设备(UEs)提供服务。在本工作中，开发了一种新的QoS感知负载均衡(LB)方法，以在QoS和资源约束下优化多频段开放无线接入网(O-RAN)中保证比特率(GBR)和尽力而为(BE)流量的性能。所提出的方法基于图形强化学习(GRL)，这是图神经网络(GNN)和强化学习(RL)交叉领域的强大框架。QoS感知的负载均衡被建模为马尔可夫决策过程，其状态表示为图形。QoS考虑因素被集成到状态表示和奖励信号设计中。然后使用基于GNN架构的分层深度Q网络(off-policy dueling Deep Q Network)来训练LB代理。这种设计确保了LB策略对节点(UE或小区)的排序不变，能够处理各种网络规模，并能够在负载均衡决策中考虑空间节点依赖性。将基于GRL的方法与两种基线方法进行了比较。结果显示了显著的性能改进，包括QoS违反减少了53%，以及BE流量的第五百分位率提高了四倍。

发布时间: 4/29/2025

查看原文

从表格数据中进行神经符号化关联规则挖掘

作者: Erkan Karabulut, Paul Groth, Victoria Degeler

arXiv:2504.19354v1 宣告类型: 新摘要: 关联规则挖掘(ARM)是挖掘以逻辑规则形式存在的数据特征之间的模式的任务，其应用涉及众多领域。然而，高维数据集往往会产生过多的规则，增加执行时间并对下游任务性能产生负面影响。管理这种规则爆炸仍然是ARM研究中的核心挑战。为了解决这一问题，我们引入了Aerial+，这是一种新颖的神经象征性ARM方法。Aerial+利用一个欠完全的自动编码器来创建数据的神经表示，捕捉特征之间的关联。它通过利用模型的重建机制从这种神经表示中提取规则。在五个数据集上与七个基线进行的广泛评估表明，Aerial+通过学习更简洁、高质量且涵盖完整数据集的规则集，实现了最先进的结果。将Aerial+整合到基于规则的可解释机器学习模型中，显著减少了执行时间，同时保持或提高了准确性。

发布时间: 4/29/2025

查看原文

基于逻辑的人工智能算法支持分类语义

作者: Ralph Wojtowicz

arXiv:2504.19320v1 宣布类型: 新摘要: 本文旨在将范畴逻辑应用于设计能够对结构更为丰富的对象进行符号推理的人工智能代理。利用约翰斯顿的带有上下文的形式和术语的 sequent calculus，我们开发了适用于笛卡尔范畴中对象推理的 Horn 逻辑规则的前向链式推理和规范形式算法。我们还将一阶统一化进行改编，以支持多类型理论、上下文和一阶逻辑的片段。这些重新表述的重要性在于，它们可以应用于那些不支持经典逻辑甚至其全部联结词的语义范畴中的对象推理。

发布时间: 4/29/2025

查看原文