arXiv:2504.01970v1 类型: cross
摘要:随着电力系统的规模不断增大以及可再生能源引入的不确定性不断增加,需要开发出比现有方法更快、更准确的新优化技术。AC最优功率流动(AC-OPF)问题是电力网络优化的核心组成部分,通常由于计算上的可实现性,使用线性化直流最优功率流动(DC-OPF)模型进行近似,从而导致非最优和低效的决策。为了解决这些限制,我们提出了一种基于深度学习的网络等效框架,该框架增强了DC-OPF,使其更接近AC-OPF的行为。该方法利用了可微优化的最新进展,通过训练一个神经网络来预测调整后的节点分流电导和支路电抗,以考虑非线性功率流动行为。该模型可以通过利用隐函数定理,使用现代深度学习框架进行端到端训练。结果表明,该框架能够显著提高预测准确性,为更加可靠和高效的电力系统铺平了道路。
arXiv:2504.01963v1 交叉公告类型: cross
摘要: 本文调查了开发基于大型语言模型(LLM)的多智能体系统所需的基石技术。我们旨在通过优化这些系统在协作和动态环境中的表现来回答这个问题,专注于四个关键领域:架构、记忆、规划和技术/框架。通过对近期进展及其局限性的分析,例如可扩展性、实时响应挑战和智能体协调约束,我们提供了一个技术景观的详细视图。如Mixture of Agents架构和ReAct规划模型等框架体现了当前的创新,展示了角色分配和决策方面的改进。本文综合了关键优势和持续挑战,提供了实用建议以提高系统可扩展性、智能体协作和适应性。我们的发现为未来的研究提供了一条路线图,支持构建强大、高效的多智能体系统,推动单个智能体性能和集体系统韧性的发展。
arXiv:2504.02822v1 宣告类型: 新
摘要: 当两个AI模型在同一项科学任务上进行训练时,它们会学到相同的理论还是不同的理论?纵观科学史,我们见证了由实验验证或证伪推动的理论的兴起和衰落:当实验数据不足时,可能存在许多共存的理论,但随着越来越多的实验数据变得可用,幸存理论的空间变得更加受限。我们展示了对于AI科学家来说,同样的故事也适用。随着训练数据中提供的系统越来越多,AI科学家倾向于在其学到的理论方面趋于一致,尽管有时它们会形成不同的小组,对应不同的理论。为了机械地解释AI科学家所学到的哪些理论以及衡量它们的一致性,我们提出了MASS,一种以哈密顿-拉格朗日神经网络作为AI科学家的方法,这些模型是通过在物理学中的标准问题上进行训练,并从许多种子模拟不同的AI科学家配置中汇总训练结果来实现的。我们的发现表明,对于AI科学家而言,在简单设置中从学习哈密顿理论转变为在复杂系统引入时使用拉格朗日公式。我们还观察到训练动力学和最终学习权重存在强烈的种子依赖性,控制了相关理论的兴起和衰落。最后,我们证明了我们的神经网络不仅可以帮助解释性,还可以应用于更高维的问题。
arXiv:2504.02793v1 宣告类型: 新
摘要:大型人工智能(AI)模型因其在标准化基准测试中的杰出表现,尤其是常被称为“超人”的表现,而受到了广泛关注。然而,当这些模型部署到高风险垂直领域,如医疗保健、教育和法律时,它们往往会展现出显著的局限性。例如,它们对输入数据的细微变化表现出脆弱性,关键场合下的决策缺乏情境相关信息,在自信地生成或再现错误信息时损害用户信任。在应用大型模型时遇到的这些挑战需要跨学科创新,以使模型的能力与实际应用的需求保持一致。我们引入了一个框架,通过逐层抽象创新以满足用户对大型模型的需求。通过多个案例研究,我们展示了不同领域的研究人员和实践者如何实现这一框架。除了模块化大型模型转换为有用的“垂直系统”的管道外,我们还强调了框架不同层次中存在的动态性。最后,我们讨论了框架如何指导研究人员和实践者:(i)优化其创新的定位(例如,当垂直领域特定见解能够赋能广泛影响的无特定垂直领域的创新时),(ii)发现被忽视的机会(例如,通过识别跨垂直领域的重复问题,来开发实践中有用的基础模型,而不是追求基准测试),以及(iii)促进关键挑战的跨学科沟通(例如,为AI开发人员、领域专家和人机交互学者提供共享词汇)。
arXiv:2504.02701v1 宣告类型: 新闻
摘要: 随着人工智能的发展,需要更广泛的共识来确定研究优先事项。本文探讨了攻击性人工智能,并通过利用可持续发展目标(SDGs)和解释性技术提供了指导。目标是为了更有效地确立平衡社会利益与风险的优先事项。本文中评估的两种攻击性人工智能形式是漏洞检测代理,它们解决夺旗挑战,以及基于人工智能的恶意软件。
arXiv:2504.02670v1
公告类型: 新闻
摘要: 大型语言模型(LLMs)正在革新能够跨领域执行多样化任务的AI助理的发展。然而,当前的LLM驱动代理面临着重大挑战,包括高昂的操作成本和在GAIA等复杂基准测试中的有限成功率。为解决这些问题,我们提出了一种名为Thought知识图谱(KGoT)的创新AI助理架构,将LLM推理与动态构建的知识图谱(KGs)集成。KGoT将与任务相关的知识提取并结构化为动态KG表示,并通过外部工具如数学求解器、网络爬虫和Python脚本进行迭代增强。这种与任务相关的知识的结构化表示使得低成本模型能够有效解决复杂任务。例如,KGoT在GAIA基准测试中的任务成功率比使用GPT-4o mini的Hugging Face代理提高了29%,而成本降低了超过36倍,相比于GPT-4o的成本降低了36倍以上。对于最近的推理模型,改进也非常相似,例如,Qwen2.5-32B和Deepseek-R1-70B分别提高了36%和37.5%。KGoT提供了一种可扩展、经济实惠且高性能的AI助理解决方案。
arXiv:2504.02654v1 宣告类型: 新颖
摘要: 我们提出了一种学习架构,该架构允许在深度神经网络中进行符号控制和引导的强化学习。我们引入了SymDQN,这是一种基于逻辑张量网络(LTNs)的神经符号框架的新模块化方法,扩展了现有的对分Deep Q-网络(DuelDQN)架构。这些模块引导动作策略学习,并使强化学习代理能够表现出与环境推理一致的行为。我们的实验是对这些模块进行的消融研究。该实验在代理在一个5x5网格环境中导航的强化学习环境中进行,该环境中存在各种形状,每个形状都与给定的奖励相关。基础的DuelDQN试图在这一环境中学习代理的最佳行为,而模块则有助于形状识别和奖励预测。我们展示了我们的架构在性能和代理的精确性方面显著提高了学习。SymDQN的模块化特性使我们能够探讨在强化学习中结合神经和符号方法的复杂性和细微之处。
arXiv:2504.02623v1 通知类型: 新
摘要: 大型语言模型(LLMs)因其先进的理解和规划能力,在工具调用代理方面显示出强大的潜力。用户越来越多地依赖基于LLM的代理通过迭代交互解决复杂的任务。然而,现有的基准测试主要在单一任务场景中访问代理,未能捕捉到现实世界中的复杂性。为了填补这一缺口,我们提出了多任务工具基准。在此基准中,每个测试案例包含多个相互关联的任务。这种设计要求代理能够动态适应不断变化的需求。此外,提出的基准测试探讨了固定任务数量内的所有可能的任务切换模式。具体而言,我们提出了一种多代理数据生成框架来构建基准测试。我们还提出了一种新的方法,使用动态决策树评估代理决策的准确性和效率。在各种开源和闭源LLM上的实验揭示了影响代理稳健性的关键因素,并为工具调用社区提供了可行的见解。
arXiv:2504.02577v1 通知类型: 新
摘要:最近在深度学习模型和方法方面的进步在各种任务和模态中取得了显著的进步。然而,虽然模型的整体能力显示出有希望的增长,但我们对其内部推理过程的理解仍然有限,特别是在系统性不一致或错误模式方面,特别是在逻辑推理或推断错误方面。这些不一致性可能表现为相互矛盾的结果、无法泛化到类似任务或在特定上下文中出现错误结论。即使检测和量化这种推理差异也具有挑战性,因为这些差异可能源自不透明的内部程序、训练数据中的偏差和不平衡,或者任务本身固有的复杂性。在没有有效的方法来检测、量化和缓解这些错误的情况下,存在部署有偏差、可利用或逻辑上不可靠的模型的风险。本文旨在通过提出新的方法来解决这些问题,这些方法可以让深度学习模型在知识图谱、自然语言和图像上进行推理。本文提出了两种技术,用于检测和量化源自自然语言和图像处理模型不透明内部程序的预测不一致性。为了缓解由训练数据偏差引起的不一致性,本文介绍了一种数据效率较高的采样方法,以提高公平性和性能,并提出了一种在资源匮乏场景中生成合成数据集的方法。最后,本文提出了两种技术来优化模型以适应复杂的推理任务。这些方法在提高模型性能的同时,还允许在推断期间更忠实地实现和解释推理。至关重要的是,本文提供了一个全面的框架,以提高深度学习模型在各种任务和模态上的稳健性、公平性和解释性。
arXiv:2504.02509v1 宣布类型: 新
摘要: 随着3D打印技术的迅速发展,制造线上对个性化和定制化生产的需求正在稳步增加。高效合并印刷工件可以显著提高生产线的处理效率。为应对这一挑战,本文提出了一种以大型语言模型(LLM)为基础的方法,用于自主合并3D打印工单,并结合了增强记忆学习策略。在工业场景中,将设备和订单特征转化为可被LLM理解的自然语言提示模板,并开发了一个订单-设备匹配工具以及一个并行合并干扰检查模块。通过引入自我记忆学习策略,构建了一个智能代理来进行自主订单合并,从而提高了订单分配的准确性和精确度。所提出的方法有效地发挥了LLM在工业应用中的优势,同时减少了幻觉现象。