arXiv 论文列表

作者: Malte Luttermann, Ralf M\"oller, Marcel Gehrke

arXiv:2504.04089v1 广告类型: 新摘要: 提升通过在概率图形模型中利用不可区分对象的代表来利用对称性，从而使查询回答更加高效，同时保持精确答案。在本文中，我们研究提升如何使我们能够对包含未知因素的因子图进行概率推理，即那些潜在映射底层函数未知的因子。我们提出了因子图中带有部分未知因子的提升因子图算法（LIFAGU），以识别包含未知因子的因子图中的不可区分子图，从而能够在确保模型的语义明确的同时，允许进行提升的概率推理。我们进一步将LIFAGU扩展以结合关于同一个体对象的因子组的额外背景知识。通过结合这种背景知识，LIFAGU能够进一步减少将已知势转移到未知势时的不确定性。

发布时间: 4/8/2025

查看原文

向高效且有效的实时旅行时间估计框架迈进

作者: Zekai Shen, Haitao Yuan, Xiaowei Mao, Congkang Lv, Shengnan Guo, Youfang Lin, Huaiyu Wan

arXiv:2504.04086v1 宣告类型: 新摘要: 路途剩余行程时间估计（ER-TTE）专注于预测剩余路线的行程时间。现有的ER-TTE方法总是进行重新估计，这在处理同时用户请求的计算需求时显著妨碍了实时性能。这导致了ER-TTE服务中的延迟和响应速度降低。我们提出了一种通用高效框架U-ERTTE，该框架结合了不确定引导决策机制（UGD）和元学习微调（FTML）来应对这些挑战。UGD量化了不确定性，并为整个路线提供置信区间。只有在实际行程时间偏离预测置信区间时，它才会选择性地重新估计，从而优化了ER-TTE的效率。为了确保置信区间的准确性以及需要重新估计的准确预测，FTML被用来训练模型，使模型能够学习通用的驾驶模式和特定特征以适应特定任务。在两个大规模实际数据集上的广泛实验表明，U-ERTTE框架在保持高效果的同时显著提高了推理速度和吞吐量。我们的代码可在 https://github.com/shenzekai/U-ERTTE 获取。

发布时间: 4/8/2025

查看原文

Among Us：一个自主欺骗的沙箱

作者: Satvik Golechha, Adri\`a Garriga-Alonso

arXiv:2504.04072v1 宣布类型: 新摘要: 研究AI代理中的欺骗性具有重要意义，但由于缺乏能够引发这种行为的模型生物和无需让模型在特定条件下行动或插入故意后门的沙箱环境，使得这项研究极具挑战性。在此基础上，我们扩展了 $\textit{AmongAgents}$，一种基于文本的社会推理游戏环境。我们的目标是通过将《 Among Us 》引入作为一个丰富的沙箱，让LLM代理自然地表现出类似人类的欺骗性，同时与其他代理或人类相互思考、交流和行动。我们引入了欺骗ELO作为衡量欺骗能力的无界指标，表明前沿模型之所以胜出，是因为它们在欺骗方面更擅长，而不是在检测方面。我们评估了多种AI安全技术（LLM对输出的监控、在各种数据集上的线性探针以及稀疏自动编码器）在《Among Us》中检测撒谎和欺骗的效果，并发现它们在离分布外表现得非常好。我们开源了这个沙箱作为未来对齐研究的基准，并希望这能成为提高检测和消除代理动机欺骗的技术，以及预见LLM欺骗能力的良好测试平台。

发布时间: 4/8/2025

查看原文

ADAPT: 主动发现并适应任何任务的偏好

作者: Maithili Patel, Xavier Puig, Ruta Desai, Roozbeh Mottaghi, Sonia Chernova, Joanne Truong, Akshara Rai

arXiv:2504.04040v1 类型: 新摘要: 辅助代理应该能够在尊重用户偏好的同时执行未完全规定的长期任务。我们引入了《主动发现和适应任何任务中的偏好 (ADAPT)》——一个旨在通过主动提问来评估代理在各种家庭任务中遵守用户偏好的能力的标准。接下来，我们提出了 Reflection-DPO，这是一种新的训练方法，用于使大型语言模型 (LLMs) 适应主动提问任务。Reflection-DPO 将一个“学生”LLM 精调为遵循一个特权的“教师”LLM 的行为，并可选地提出问题以收集必要的信息以更好地预测教师的行为。我们发现，使用最先进的 LLM 的先前方法在 ADAPT 中未能充分遵循用户偏好，原因是在提问方面不足且对提取的偏好的遵守不够。相比之下，Reflection-DPO 实现了更高的满足用户偏好的比率，在未见过的用户上，Reflection-DPO 比零样本链式思维基线高出 6.1%。

发布时间: 4/8/2025

查看原文

使用基于近端策略优化的深度强化学习优化无人机空中基站飞行

作者: Mario Rico Ibanez, Azim Akhtarshenas, David Lopez-Perez, Giovanni Geraci

arXiv:2504.03961v1 通告类型: 新摘要: 无人机基站(UAV)在紧急情况下提供了一种有前景的解决方案，在这种情况下，快速部署先进的网络对于最大化生命救助潜力至关重要。优化这些无人机的战略定位对于提高通信效率至关重要。本文介绍了一种自动化强化学习方法，使得无人机能够动态地与环境互动并确定最优配置。借助通信网络的无线电信号感知能力，我们的方法提供了一个更现实的视角，并利用最先进的算法——近端策略优化——来学习和泛化跨各种用户设备(UE)运动模式的定位策略。我们在多种UE移动场景下评估了我们的方法，包括静态、随机、线性、圆形和混合热点移动。数值结果表明，该算法在各种运动模式下具有适应性和有效性，能够保持全面的覆盖。

发布时间: 4/8/2025

查看原文

大语言模型学会推理了吗？基于3-SAT相变的characterization

作者: Rishi Hazra, Gabriele Venturato, Pedro Zuidberg Dos Martires, Luc De Raedt

arXiv:2504.03930v1 公告类型: 新颖摘要: 大型语言模型（LLMs）被宣传为具有高级推理能力的AI模型。理论上，带有思维链（Chain-of-Thought, CoT）的自回归LLMs可以进行更多的串行计算以解决复杂的推理任务。然而，最近的研究表明，尽管具有这种能力，LLMs实际上并未学会推理，而是拟合统计特征。为了以原则化的视角研究推理能力，我们采用计算理论的视角，并提出了一种以3-SAT为核心问题的实验协议——这是典型的NP完全问题，位于逻辑推理和约束满足任务的核心。具体而言，我们研究了随机3-SAT的问题转变，并通过改变问题实例的固有难度来表征最先进的LLMs的推理能力。通过将DeepSeek R1与其他LLMs进行比较，我们的研究揭示了两个关键见解：（1）LLM在更难的问题实例上的准确性显著下降，表明所有当前的模型在没有统计捷径时都面临困难；（2）与其它LLMs不同，R1显示出已经学习到基础推理的迹象。遵循原则化的实验协议，我们的研究超越了LLM推理研究中常见的基于基准的证据。我们的发现揭示了重要的差距，并提出了未来研究的明确方向。

发布时间: 4/8/2025

查看原文

使用线性探针的深度监督提高世界模型

作者: Andrii Zahorodnii

arXiv:2504.03861v1 公告类型: 新摘要: 开发有效的世界模型对于创建能够推理和导航复杂环境的人工代理至关重要。在这篇论文中，我们研究了一种深层监督技术，以鼓励在网络中训练端到端以预测下一次观察时开发世界模型。虽然深层监督在特定任务学习中被广泛应用于，我们的重点是改进世界模型。利用基于Flappy Bird游戏的实验环境，其中代理仅接收LIDAR测量作为观察，我们探讨了向网络的损失函数中添加线性探测组件的影响。这个额外的项鼓励网络将其隐藏状态编码为真实底层世界特征的一部分。我们的实验表明，这种监督技术可以提高训练和测试性能，增强训练稳定性，并导致更易于解码的世界特征——即使这些世界特征未包含在训练中。此外，我们观察到使用线性探测训练的网络在游戏高变异性阶段（从连续的管道遇到间飞行）中分布漂移减少。包含世界特征损失项大致相当于模型大小翻倍，这表明线性探测技术在计算受限的环境中特别有益，或在使用较小模型以获得最佳性能时特别有利。这些发现有助于我们更好地理解如何开发更稳健和复杂的代理世界模型，为该领域的进一步发展铺平了道路。

发布时间: 4/8/2025

查看原文

自驾驶实验室中协议设计的分层封装表示

作者: Yu-Zhe Shi, Mingchen Liu, Fanxu Meng, Qiao Xu, Zhangqian Bi, Kun He, Lecheng Ruan, Qining Wang

arXiv:2504.03810v1 公告类型: 新增摘要: 自动驾驶实验室已经开始取代人类实验者执行单一实验技能或预定的实验协议。然而，随着人工智能加速了科研理念的迭代，对快速设计新协议以新发现的需求变得明显。自动化协议设计的努力已经开始，但基于知识的机器设计者的能力，如大型语言模型，尚未完全发挥，可能是因为缺乏对实验知识的系统化表示，相反，存在着孤立的平面信息。为解决这一问题，我们提出了一种多方面、多层次的表示方法，其中实例操作、通用操作和产品流程模型通过领域特定语言逐级封装。我们进一步开发了一种基于非参数建模的数据驱动算法，该算法能够自主定制这些表示以适应特定领域。所提出的方法配备了各种机器设计者来管理协议设计任务，包括规划、修改和调整。结果表明，所提出的方法能够在协议设计过程中有效补充大型语言模型，在机器辅助科学探索领域发挥作用模块。

发布时间: 4/8/2025

查看原文

Flow状态：人类帮助AI系统自我编程

作者: Helena Zhang, Jakobi Haskell, Yosef Frost

arXiv:2504.03771v1 宣告类型: 新摘要: 组合AI系统协调多个AI组件和外部API， increasingly 越来越重要，但在处理复杂性、处理歧义性和促进有效的开发工作流方面面临挑战。现有框架往往引入了大量额外开销、隐含的复杂性或限制性的抽象，阻碍了维护性和迭代细化，特别是在人机协作环境中。我们认为，克服这些难题需要一种优先考虑结构清晰和显式控制的基础架构。为此，我们介绍了Pocketflow，一个基于人机联合设计的理念，由Pocketflow赋能的平台。Pocketflow是一个基于故意简洁但协同作用很强的核心抽象集的Python框架：模块化节点具有严格的生命周期，宣称式流程协调，原生层次嵌套（将流程作为节点），以及基于显式动作的条件逻辑。这种独特的组合提供了一个稳健、供应商中立的基础，代码量很少，但确实减少了开销同时提供了复杂模式（如代理工作流和RAG）所需的表现力。通过Pocket AI这一助手，利用这种结构进行系统设计，Pocketflow为迭代原型设计、细化和部署现代企业所需的可适应和可扩展的AI系统提供了一个有效的工作环境。

发布时间: 4/8/2025

查看原文

可扩展监督协议基准

作者: Abhimanyu Pallavi Sudhir, Jackson Kaunismaa, Arjun Panickssery

arXiv:2504.03731v1 公告类型: 新摘要: 随着AI代理超越人类能力，可扩展的监督——有效向超人类AI模型提供人类反馈的问题——变得越来越关键，以确保齐一性。虽然已经提出了许多可扩展的监督协议，但缺乏一个系统性的实证框架来评估和比较它们。虽然最近的一些工作试图实证研究可扩展的监督协议——特别是辩论方法——但我们认为它们进行的实验对于其他协议来说并不具有普遍适用性。我们引入了可扩展的监督基准，这是一个基于我们代理得分差（ASD）指标的有原则的框架，该指标衡量一种机制在促进说实话而非欺诈方面的有效性。我们提供了一个Python包，以促进在我们的基准上快速且竞争性的评估可扩展的监督协议，并进行了一个示范性实验，基准测试了辩论方法。

发布时间: 4/8/2025

查看原文