arXiv 论文列表

作者: Maris F. L. Galesloot, Roman Andriushchenko, Milan \v{C}e\v{s}ka, Sebastian Junges, Nils Jansen

arXiv:2505.09518v1 宣告类型: 新摘要: 部分可观测马尔可夫决策过程（POMDPs）在不确定性下的顺序决策中建模特定的环境。关键的是，POMDP的最优策略可能不 robust 对环境中的干扰。隐藏模型 POMDP（HM-POMDPs）捕捉一组不同的环境模型，即具有共享动作和观测空间的 POMDP。直觉是，真正的模型隐藏在一组潜在的模型中，执行时不知道会是哪一个模型。对于给定的 HM-POMDP，如果策略在每个其 POMDP 中都能实现足够的性能，则该策略是 robust 的。我们通过结合两种正交的技术来计算这样的 robust 策略：（1）一种演绎形式验证技术，通过计算 HM-POMDP 中的最坏情况 POMDP 来支持可处理的 robust 策略评估；（2）次梯度上升来优化候选策略以适应最坏情况的 POMDP。实证评估表明，与各种基线相比，我们的方法（1）生成的策略更 robust，并且能够更好地泛化到未见过的 POMDP；（2）能够扩展到包含超过十万种环境的 HM-POMDP。

发布时间: 5/15/2025

查看原文

马尔可夫决策过程中的反事实策略

作者: Paul Kobialka, Lina Gerlach, Francesco Leofante, Erika \'Abrah\'am, Silvia Lizeth Tapia Tarifa, Einar Broch Johnsen

arXiv:2505.09412v1 宣告类型: 新摘要: 假想情况在AI中广泛用于解释少量改变模型输入如何导致不同的输出。然而，现有的计算假想情况的方法通常专注于单一决策步骤，不直接适用于顺序决策任务。本文通过引入马尔可夫决策过程（MDP）的假想策略来填补这一空白。在MDP执行期间，策略决定执行哪些具有已知概率效应的可用动作。给定一个初始策略，该策略以高于某个阈值的概率达到一个不希望的结果，我们识别出对初始策略进行最小化的改变，以使得该概率低于阈值。我们将这样的假想策略编码为非线性优化问题的解，并进一步扩展编码来合成多样化的假想策略。我们在四个真实世界的数据集上评估了我们的方法，并展示了其在复杂顺序决策任务中的实际可行性。

发布时间: 5/15/2025

查看原文

人类启发的代理 sophistication 对于由大型语言模型驱动的战略推理器的影响

作者: Vince Trencsenyi, Agnieszka Mensfelt, Kostas Stathis

arXiv:2505.09396v1 宣告类型: 新摘要：大型语言模型（LLMs）的迅速崛起已将人工智能（AI）研究转向自主系统，从而激发了使用更弱且更具弹性的自主概念。然而，这一转变提出了关键问题，即基于LLM的代理在游戏论环境中的策略性推理是否与人类相复制。在此背景下，我们通过评估三种代理设计来探讨自主精熟度在塑造人工推理性能中的作用：一个简单的博弈论模型，一个结构化不强的LLM代理模型，以及一个将LLM集成到传统自主框架中的设计。利用猜谜游戏作为测试平台，我们跨一般推理模式和个体基于角色的目标，在人类参与者与这些代理的基准测试中评估了这些代理的表现。此外，我们引入了混淆的博弈情景，以评估代理超越训练分布模式的一般化能力。我们的分析涵盖了25种代理配置下的2000多个推理样本，表明灵感源自人类的认知结构可以增强LLM代理与人类战略行为的对齐。然而，自主设计复杂度与拟人化的关系是非线性的，突显出对底层LLM能力的强烈依赖性，并建议简单的架构改进存在局限性。

发布时间: 5/15/2025

查看原文

访问控制将解决双重用途困境

作者: Ev\v{z}en Wybitul

arXiv:2505.09341v1 公告类型: 新摘要: AI 安全系统面临双重用途困境。因为同一个请求可能根据提出请求的人和原因的不同，要么无害要么有害，如果系统仅基于请求的内容来做决定，它将拒绝一些合法查询并让一些有害的请求通过。为解决这一问题，我们提出了一种基于验证用户凭证（如机构隶属关系）和分类器的概念访问控制框架，这些分类器将模型输出分配给风险类别（如高级病毒学）。只有当用户的验证凭证符合该类别要求时，系统才允许其做出响应。为实现模型输出分类器，我们引入了一种理论方法，该方法利用小型门控专家模块集成到生成模型中，并通过梯度路由进行训练，从而能够在不涉及外部监控能力差距问题的情况下实现高效的危险检测。尽管关于验证机制、风险类别和技术实现仍存在一些开放问题，但我们的框架为实现对 AI 能力的细粒度治理迈出了第一步：已验证的用户可以获取专业知识而不会受到任意限制，而对手则被阻止访问。这种上下文方法平衡了模型的实用性与稳健的安全性，解决了双重用途困境。

发布时间: 5/15/2025

查看原文

"Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents" 的 reproducibility 研究

作者: Pedro M. P. Curvo, Mara Dragomir, Salvador Torpes, Mohammadmahdi Rahimi

arXiv:2505.09289v1 通告类型: 新增摘要: 本研究评估并扩展了 Piatti 等人关于 GovSim 的发现，GovSim 是一种旨在评估大型语言模型（LLMs）在资源共享场景中的协作决策能力的仿真框架。通过复制关键实验，我们验证了关于大型模型（例如 GPT-4-turbo）与小型模型的性能差异的主张。还考察了普遍原则的影响，结果显示，即使在没有该原则的情况下，大型模型也能实现可持续的协作，而小型模型则无法做到这一点。此外，我们提供了多个扩展，以探索此框架在新环境中的适用性。我们评估了其他模型，如 DeepSeek-V3 和 GPT-4o-mini，以测试协作行为是否能在不同架构和模型大小中泛化。此外，我们引入了新的设置：创建了一个异质多智能体环境，研究使用日语指令的场景，并探索了一个“逆环境”，其中智能体必须合作以减轻有害资源分配。结果表明，基准可以应用于新的模型、场景和语言，提供了关于大型语言模型在复杂协作任务中适应性的宝贵见解。此外，涉及异质多智能体系统的实验表明，高性能模型可以影响表现较差模型，使其采纳类似的行为。这一发现对其他基于代理的应用具有重大意义，可能会促进更高效计算资源的使用，并有助于开发更为有效的协作AI系统。

发布时间: 5/15/2025

查看原文

超越已知：基于反事实推理的决策transformer决策making

作者: Minh Hoang Nguyen, Linh Le Pham Van, Thommen George Karimpanal, Sunil Gupta, Hung Le

arXiv:2505.09114v1 宣告类型: 新增摘要: 决策变换器（DT）在现代强化学习中发挥着重要作用，通过利用离线数据集，在多个领域取得了令人印象深刻的结果。然而，DT 要取得最佳性能需要高质量且全面的数据。在实际应用中，由于缺乏训练数据和最优行为的稀缺性，利用离线数据集进行训练变得具有挑战性，因为低质量的数据会限制性能。为了应对这一问题，我们提出了一种新颖的框架——因果推理决策变换器（CRDT），该框架受到了因果推理的启发。CRDT 能够通过生成和利用因果替代经历，增强 DT 在已知数据之外进行推理的能力，从而在未见过的场景中提高决策能力。在包括有限数据和动态改变的 Atari 和 D4RL 基准测试中，CRDT 的性能优于传统的 DT 方法。此外，进行因果推理使 DT 剂量获得了缝合能力，可以结合低质量的轨迹而无需进行架构修改。这些结果突显了因果推理在增强强化学习代理性能和泛化能力方面的潜在作用。

发布时间: 5/15/2025

查看原文

提高大型语言模型的可靠性：结合 Cot、RAG、自我一致性与自我验证

作者: Adarsh Kumar, Hwiyoon Kim, Jawahar Sai Nathani, Neil Roy

arXiv:2505.09031v1 宣告类型: 新颖摘要: 幻觉，即大型语言模型（LLMs）生成自信心强但不正确的或不相关的信息，仍然是它们在处理复杂、开放性任务时的关键限制。链式思考（CoT）提示作为一种通过引导模型完成中间步骤来改善多步推理的方法而崭露头角。然而，CoT本身并不能完全解决幻觉问题。在本文中，我们探讨了如何将CoT与检索增强生成（RAG）结合，并应用自一致性与自我验证策略，以减少幻觉并提高事实准确性。通过在推理过程中引入外部知识源，并使模型能够验证或修订自己的输出，我们旨在生成更准确和连贯的回应。我们进行了一项基线LLM与CoT、CoT+RAG、自一致性、自我验证技术的比较评估。我们的结果突显了每种方法的有效性，并指出了最稳健的方法，用于最小化幻觉同时保持流畅性和推理深度。

发布时间: 5/15/2025

查看原文

连续控制中的演员-评论家强化学习的蒙特卡洛束搜索

作者: Hazim Alzorgan, Abolfazl Razi

arXiv:2505.09029v1 Announce Type: 新摘要：似 Actor-critic 方法，如双重延迟深度确定性策略梯度（TD3），依赖于基于噪声的基本探索方式，这可能导致政策收敛效果不佳。在本研究中，我们引入了一种新的混合方法——蒙特卡洛束搜索（MCBS），该方法结合了束搜索、蒙特卡洛展开与 TD3，以提高探索和动作选择。MCBS 在策略输出周围生成若干候选动作，并通过短期展开进行评估，从而使智能体能够做出更明智的选择。我们针对半LLU纲萧匀区髄鞍惰街区，跳骆卢屋，拉屋屎盎机亵笔畏潇洼吮赋拘朝妇屎侩镂卢屋跳骆卢屋，爬虫-5 等多种连续控制基准测试了 MCBS，结果显示 MCBS 在样本效率和性能上均优于标准 TD3 以及其他基准方法，如 SAC、PPO 和 A2C。我们的研究强调了 MCBS 通过结构化的前瞻搜索增强政策学习的能力，同时保证了计算效率。此外，我们详细分析了关键超参数，如束宽和展开深度，并探讨了适应性策略以优化 MCBS 对于复杂控制任务的效果。我们的方法在不同环境中的收敛速度均超过了 TD3、SAC、PPO 和 A2C。例如，我们只用了大约 20 万个时间步就达到了最大可实现奖励的大约 90%，而第二个最佳方法则需要 40 万个时间步。

发布时间: 5/15/2025

查看原文

自动元提示工程以实现理论心智对齐

作者: Aaron Baughman, Rahul Agarwal, Eduardo Morales, Gozde Akay

arXiv:2505.09024v1 通知类型: 新摘要: 我们介绍了一种元提示方法，该方法在生成复杂任务流畅文本的同时，优化了人类心理预期与大型语言模型（LLM）神经处理之间的相似性。应用了一种代理强化学习技术，其中作为裁判的LLM (LLMaaJ) 通过上下文学习教另一款LLM如何通过解释预期和非预期生成文本的特点来生成内容。为了衡量人们对内容生成的心理信念，在2024年美国网球公开赛大满贯赛事中，用户在发布前修改了长篇AI生成的文章。现在，LLMaaJ 可以通过预测和在文本生成中包含人类编辑来解决心智理论（ToM）对齐问题。通过实验和解读实时生产系统的结果，人类内容审核者的期望有53.8%的时间与AI对齐，平均迭代次数为4.38。内容特质（如事实性、新颖性、重复性和相关性）的空间几何解释结合了空间体积（所有特质的重要性）和顶点对齐（个别特质的相关性），使LLMaaJ 能够优化人类的心智理论。这导致了网球事件覆盖范围的扩展，提高了内容质量。在2024年美国网球公开赛中部署的此项工作已在体育和娱乐行业的其他实时活动中得到应用。

发布时间: 5/15/2025

查看原文

电力 grid 多阶段级联故障缓解的深度 reinforcement 学习

作者: Bo Meng, Chenghao Xu, Yongli Zhu

arXiv:2505.09012v1 通知类型: 新颖摘要: 电力网格中的级联故障可能导致电网崩溃，从而对社会运营和经济活动造成严重破坏。在某些情况下，可能会发生多阶段级联故障。然而，现有的级联故障缓解策略通常基于单阶段，忽视了多阶段场景的复杂性。本文将多阶段级联失败问题视为强化学习任务，并开发了一个仿真环境。随后，通过确定性策略梯度算法训练强化学习代理以实现连续动作。最后，该提出的方法在IEEE 14-母线系统和IEEE 118-母线系统上进行了有效性验证。

发布时间: 5/15/2025

查看原文