arXiv 论文列表

作者: Yazan Otoum, Arghavan Asad, Ishtiaq Ahmad

arXiv:2505.00651v2 通知类型: 替换摘要：物联网（IoV）生态系统中连接车辆的普及给确保可扩展、实时和可保护隐私的交通管理带来了关键挑战。现有的集中式IoV解决方案通常存在高延迟、可扩展性有限以及依赖专有人工智能（AI）模型的问题，这在动态和隐私敏感环境中尤其成为广泛应用的重大障碍。与此同时，将大型语言模型（LLMs）集成到车辆系统中仍然相对未开发，特别是在联邦情境下的提示优化和有效利用方面。为了应对这些挑战，我们提出了联邦提示优化交通变换器（FPoTT），这是一种新颖的框架，利用开源LLMs进行预测性的IoV管理。FPoTT 引入了一种动态提示优化机制，该机制能够迭代细化文本提示以增强轨迹预测。该架构采用了双重联邦学习范式，结合了轻量级边缘模型进行实时推理，以及基于云的LLMs来保留全局智能。还集成了一个基于变换器的合成数据生成器，以用NGSIM格式的各种高保真交通场景增强训练数据。广泛的评估表明，使用EleutherAI Pythia-1B的FPoTT在真实数据上的预测准确率达到99.86%，并且在合成数据集上仍保持高性能。这些结果表明开源LLMs在实现安全、适应性强和可扩展的IoV管理方面的潜力，并为智能移动生态系统提供了一个有吸引力的替代专有解决方案的选项。

发布时间: 5/14/2025

查看原文

基于强化学习增强的基础模型GUI代理综述

作者: Jiahao Li, Kaer Huang

arXiv:2504.20464v2 通知类型: 替换摘要：由多模态大规模语言模型（MLLMs）驱动的图形用户界面（GUI）代理已经作为一种有前景的方法出现，使得智能地与数字系统进行交互成为可能。本文提供了一个关于GUI代理近年来发展的结构化概述，重点关注增强学习（RL）的架构。我们首先将GUI代理任务形式化为马尔可夫决策过程，并讨论典型的执行环境和评估指标。然后，我们回顾了基于（M）LLM的GUI代理的模块化架构，涵盖了感知、规划和执行模块，并通过代表性的工作追踪其演变。此外，我们将GUI代理的训练方法分类为基于提示的、基于监督微调（SFT）的和基于RL的方法，强调从简单的提示工程到通过RL进行动态策略学习的进步。我们的概要说明了多模态感知、决策推理和自适应动作生成的最近创新如何显著提高了GUI代理在复杂真实环境中的泛化能力和鲁棒性。最后，我们指出了构建更强大和可靠的GUI代理的关键挑战和未来方向。

发布时间: 5/14/2025

查看原文

向正式的胜任力需求理论迈进：通过计算内在动机

作者: Erik M. Lintunen, Nadia M. Ady, Sebastian Deterding, Christian Guckelsberger

arXiv:2502.07423v2 公告类型: 替换摘要：计算建模提供了一种强大的工具，用于正式化心理学理论，使它们更具透明度、可测试性和在数字环境中的可应用性。然而，一个常见问题仍然存在：应该如何进行计算建模？我们提供了一种示例，说明如何从人工智能中汲取形式化的工具作为出发点。具体而言，我们重点关注自我决定理论（SDT）中提出的“能力需要”，这是心理学中内在动机（IM）最具有影响力的框架中的一个关键基本心理学需求。最近的研究在关键的SDT文本中识别出了多个能力的不同方面：效能感、技能应用、任务表现和能力增长。我们借鉴强化学习中的计算IM文献，建议不同的现有形式化工具可能适用于建模这些不同的方面。利用这些形式化工具，我们揭示了SDT未能明确表示的潜在前提条件，展示了计算模型如何提高我们对IM的理解。更广泛地说，我们的工作可以支持一个理论发展的循环，通过激发新的计算模型来促进新的理论发展，然后通过实证测试进一步完善理论。因此，我们为促进SDT及其他动机心理学中的能力相关理论的发展提供了基础。

发布时间: 5/14/2025

查看原文

最适者的.odyssey：智能体能生存下来仍然保持良好性能吗？

作者: Dylan Waldner, Risto Miikkulainen

arXiv:2502.05442v2 通知类型: 替换摘要：随着人工智能模型的权力和通用性不断增强，理解智能代理在复杂环境中如何学习和做决策变得至关重要，这对于促进伦理行为至关重要。这项研究引入了《Odyssey》，一种轻量级、可适应的基于文本的冒险游戏，提供了一个可扩展的框架来探索人工智能伦理和安全性。《Odyssey》检查将生物驱动力，特别是自我保护，植入三个不同智能体中的伦理影响。这些智能体经过NEAT优化的贝叶斯智能体、经过随机变分推断优化的贝叶斯智能体以及GPT-4o智能体。智能体在每个场景中选择行动以求生存，并适应越来越具有挑战性的场景。模拟后分析评估了智能体决策的伦理得分，揭示了它们为生存所做出的伦理权衡。具体分析发现，当危险增加时，智能体的伦理行为变得难以预测。令人惊讶的是，GPT-4o智能体在生存和伦理一致性方面都优于贝叶斯模型，这挑战了传统概率方法的假设，并提出了理解大规模语言模型概率推理机制的新挑战。

发布时间: 5/14/2025

查看原文

Transformer能在训练数据中连接分离的知识来进行推理吗？

作者: Yutong Yin, Zhaoran Wang

arXiv:2501.15857v5 宣告类型：替换摘要：人类表现出令人remarkable的组合性推理能力，通过从各种来源整合知识。例如，如果某人从一个来源学习到(B = f(A))，从另一个来源学习到(C = g(B))，他们即使没有同时遇到ABC，也可以推断出(C = g(B) = g(f(A)))，这展示了人类智能的泛化能力。在这篇论文中，我们引入了一个合成学习任务“FTCT”（碎片化训练，链式测试），以验证Transformer在复制这种技能方面的潜力及其内部机制。在训练阶段，数据由整体因果图中的分离知识碎片组成。在测试期间，Transformer必须通过整合这些片段推断出完整的因果图轨迹。我们的发现表明，少量链式思考提示使Transformer能够在FTCT中进行组合性推理，即使这些组合片段没有出现在训练数据中。此外，组合性推理能力的出现与模型复杂性和训练-测试数据相似性之间存在密切关联。我们从理论上和实验上提出，Transformer通过训练学习到一个潜在可泛化的程序，在测试期间实现有效的组合性推理。

发布时间: 5/14/2025

查看原文

TradExpert: 以专家级语言模型组合革新交易

作者: Qianggang Ding, Haochen Shi, Jiadong Guo, Bang Liu

arXiv:2411.00782v2 宣告类型: 更新摘要：人工智能（AI）在金融领域的集成为量化交易开辟了新的途径，特别是在大型语言模型（LLMs）的应用方面。然而，有效地综合来自多种数据源的见解以及结合结构化和非结构化数据的挑战仍然存在。本文提出了一种名为TradeExpert的新框架，该框架采用混合专家（MoE）的方法，使用四个专门的LLM，分别分析不同的金融数据来源，包括新闻文章、市场数据、阿尔法因素和基本面数据。这些专家LLM的见解进一步由一个通用专家LLM综合，以做出最终的预测或决策。通过特定的提示，TradeExpert可以在股票动量预测的预测模式和量化股票交易的排名模式之间切换。除了现有的基准之外，我们还发布了一个大型金融数据集，以全面评估TradeExpert的有效性。实验结果表明，TradeExpert在所有交易场景中的性能均优于其他方法。

发布时间: 5/14/2025

查看原文

S-EPOA：基于技能驱动的偏好强化学习克服分割片段的不可区分性

作者: Ni Mu, Yao Luan, Yiqin Yang, Bo Xu, Qing-shan Jia

arXiv:2408.12130v3 宣告类型: 替换摘要：基于偏好的强化学习（PbRL）通过将人类偏好直接用作奖励信号而脱颖而出，消除了复杂的奖励工程的需求。然而，尽管具有这一潜力，传统的基于偏好的强化学习方法往往受到段落不可区分性的限制，这阻碍了学习过程。在本文中，我们引入了技能增强偏好优化算法（S-EPOA），通过将技能机制整合到偏好学习框架中来解决段落不可区分性问题。具体而言，我们首先进行无监督预训练以学习有用技能。然后，我们提出了一个新的查询选择机制，以在学习到的技能空间中平衡信息增益和可区分性。在包括机器人操作和运动等任务的一系列实验中，结果表明，S-EPOA 在稳健性和学习效率方面显著优于传统基于偏好的强化学习方法。结果突出显示了技能驱动学习在克服段落不可区分性带来的挑战方面的有效性。

发布时间: 5/14/2025

查看原文

揭开AI责任之谜

作者: Zoe Porter, Philippa Ryan, Phillip Morgan, Joanna Al-Qaddoumi, Bernard Twomey, Paul Noordhof, John McDermid, Ibrahim Habli

arXiv:2308.02608v3 通知类型: 替换摘要：广泛认为，我们需要确定AI驱动系统输出和影响的责任归属。这对于实现AI伤害受害者的公正补偿以及政策和工程实践的指导至关重要。然而，如果没有对“责任”这一概念有清晰而全面的理解，关于责任归属的讨论最多也只能是不聚焦的和不完整的，在最糟的情况下则是误导性的。此外，AI驱动系统存在于更广泛行为者、决策和治理结构的生态系统中，从而产生复杂的责任关系网络。为了解决这些问题，本文提出了一个责任概念框架，附带图形表示方法和一般性方法，用于可视化这些责任网络，并追溯不同责任归属的AI。采用“行为者A对事件O负责”这一三部分表述，该框架将责任的概念拆解开来，以澄清对AI负责的不同可能性、他们负责的维度以及他们对事件负责的方面。该表示法允许将这些变化以图形形式表示。该方法使用户能够将框架应用于具体场景中。旨在为来自不同学科背景的利益相关者提供一个基础，支持他们讨论和解决涉及AI的假设和实际案例中的复杂责任问题。该工作通过一个虚构的无人驾驶AI驱动海洋船舶与传统有人驾驶船舶海上相撞的场景进行了说明。

发布时间: 5/14/2025

查看原文

集中训练与分散执行框架的中央化程度足够用于多智能体 reinforcement 学习吗？

作者: Yihe Zhou, Shunyu Liu, Yunpeng Qing, Kaixuan Chen, Tongya Zheng, Jie Song, Mingli Song

arXiv:2305.17352v2 宣告类型: 替换摘要：集中式训练与分散式执行（CTDE）最近已成为协同多智能体强化学习（MARL）的一个流行框架，其中智能体可以在集中式方式下使用额外的全局状态信息来指导训练，并基于分散的局部策略仅做出自己的决策。尽管取得了令人鼓舞的结果，但CTDE假设智能体策略之间是独立的，这限制了智能体在集中式训练过程中相互采用全局协作信息的能力。因此，我们认为现有的CTDE方法无法充分利用全局信息进行训练，导致联合策略探索效率低下，甚至达不到最优结果。在本文中，我们提出了一种新颖的集中式咨询与分散式剪枝（CADP）框架，该框架不仅在训练过程中允许智能体之间更有效的消息交换，还保证了执行时的独立策略。首先，CADP为智能体赋予了明确的通信渠道，使其能够寻求并从其他智能体那里获取更多集中式训练的建议。为了进一步确保分散执行，我们提出了一种平滑模型剪枝机制，逐步限制智能体之间的通信范围，同时不会削弱智能体之间的合作能力。在StarCraft II 微管理任务和Google Research足球基准上的实证评估表明，提出的框架在与最先进的方法相比时，取得了更好的性能。我们的代码将公开发布。

发布时间: 5/14/2025

查看原文

CodePDE：一个由大规模语言模型驱动的偏微分方程求解器生成推理框架

作者: Shanda Li, Tanya Marwah, Junhong Shen, Weiwei Sun, Andrej Risteski, Yiming Yang, Ameet Talwalkar

arXiv:2505.08783v1 宣传类型: cross 摘要: 偏微分方程（PDEs）是建模物理系统的基本工具，但求解它们仍然是一个复杂的挑战。传统的数值求解器依赖于专家知识的实现，并且计算成本昂贵，而基于神经网络的求解器需要大量训练数据集，通常缺乏可解释性。在这个工作中，我们将PDE求解重新表述为代码生成任务，并引入了CodePDE，这是第一个使用大型语言模型（LLMs）生成PDE求解器的推理框架。通过利用先进的推理时算法和扩展策略，CodePDE解锁了LLMs在PDE求解中的关键能力：推理、调试、自改进和测试时扩展——所有这些都无需针对特定任务进行调优。CodePDE在一系列代表性PDE问题上的性能超越了人类。我们还呈现了一种系统性的实验分析，分析了由LLMs生成的求解器的准确度、效率和数值方案选择。我们的研究结果突显了LLMs在PDE求解中的潜力和当前限制，提供了新的求解器设计视角和未来模型开发的机会。我们的代码可在 https://github.com/LithiumDA/CodePDE 获取。

发布时间: 5/14/2025

查看原文