arXiv:2502.13969v1 宣告类型: cross
摘要:无线电频率(RF)源的位置确定在搜索和救援、干扰器检测以及敌对活动监控等方面具有关键应用。无人驾驶飞机(UAV)在RF源定位(RFSL)方面相较于地面方法具有显著优势,因为它利用了自主的3D导航并在更高的高度处改善了信号捕获。近期深度学习(DL)的进步进一步提高了定位精度,特别是对于室外场景。DL模型在现实世界中的表现常常遇到挑战,因为它们通常在未能完全重现现实世界的条件的模拟数据集上进行训练。为了解决这个问题,我们首先提出了增强的双向传播模型,通过提高传播环境建模的准确性来减小模拟与现实之间的差距。在RFSL方面,我们提出了基于3D聚类的RealAdaptRNet,这是一种利用基于3D聚类特征提取的DL方法,以实现鲁棒定位。实验结果表明,提出的增强双向传播模型在模拟现实世界的传播场景方面相比传统自由空间和双向模型提供了更优越的准确性。值得注意的是,3D聚类基于的RealAdaptRNet完全在模拟数据集上训练,在使用AERPAW物理测试床验证时,其真实的环境定位误差平均仅为18.2米。提出的方法计算效率高,参数量仅为33.5倍,展示了在不同轨迹上强大的泛化能力,使其非常适用于实际应用。
arXiv:2502.14864v1 公告类型: 新
摘要: 多模态检索增强生成(MRAG)通过整合外部知识增强了推理能力。然而,现有的基准主要集中在简单的图像-文本交互上,忽略了在现实世界应用中普遍存在且复杂的图表格式。在本文中,我们引入了一个新的任务——基于图表的MRAG,以解决这一限制。为了半自动地生成高质量的评估样本,我们提出了基于图表的文档问答生成(CHARGE)框架,该框架通过结构化关键点提取、跨模态验证和基于关键点的生成来生成评估数据。通过将CHARGE与专家验证结合,我们构建了Chart-MRAG Bench,这是一个全面的基于图表的MRAG评估基准,包含来自实际文档的8个领域共4,738个问答对。我们的评估揭示了当前方法的三个关键局限性:(1)统一的多模态嵌入检索方法在基于图表的场景中难以发挥作用,(2)即使使用真实的检索结果,最先进的MLLMs也只能达到58.19%的正确率和73.87%的覆盖率,(3)MLLMs在基于图表的MRAG推理过程中表现出一致的文本超越视觉模态偏见。CHARGE和Chart-MRAG Bench已在https://github.com/Nomothings/CHARGE.git 发布。
arXiv:2502.14815v1 通知类型: 新
摘要: 结合了多个LLM调用的复合AI系统,例如自我精炼和多智能体辩论,在许多AI任务中表现出色。我们针对复合系统优化中的一个核心问题:对于系统中的每个LLM调用或模块,应该如何决定使用哪个LLM?我们表明,这些LLM的选择对质量有重大影响,但搜索空间是指数级的。我们提出了LLMSelector,这是一种在复合系统中进行模型选择的有效框架,它利用了两个关键的经验洞察:(i) 在其他模块保持不变的情况下,端到端性能通常随着每个模块性能的提高而单调增加;(ii) 模块级别的性能可以通过一个LLM进行准确估算。基于这些洞察,LLMSelector迭代地选择一个模块,并将其分配给由LLM估计的模块级别性能最高的模型,直到无法再获得改进为止。LLMSelector适用于具有限定模块数的任何复合系统,其API调用次数与模块数量成线性关系,从经验上和理论上都能实现高质量模型分配。使用GPT-4o、Claude 3.5 Sonnet和Gemini 1.5等LLM进行多智能体辩论和自我精炼等流行复合系统的实验表明,与所有模块使用相同的LLM相比,LLMSelector能够获得5%-70%的准确性提升。
arXiv:2502.14777v1 声明类型: 新
摘要:开发能够解决广泛序列决策任务的一般智能体仍然是一个重大挑战。我们在这个跨智能体设置中处理这个问题,其中智能体共享相同的状态空间,但在动作空间上有所不同。我们的方法基于通用策略框架,将策略学习分为两个阶段:基于扩散的计划器生成状态序列,以及逆动力学模型将动作分配给这些计划。我们提出了一个方法,用于在由所有智能体轨迹组成的联合数据集上训练计划器。这种方法的优势在于通过汇总不同智能体的数据来实现正向迁移,而主要挑战在于使共享的计划适应每个智能体的独特约束。我们在 BabyAI 环境中评估了我们的方法,涵盖不同复杂度的任务,并展示了智能体之间的正向迁移。此外,我们还检查了计划器在未见过的智能体上的泛化能力,并将我们的方法与传统的模仿学习方法进行了比较。通过在多个智能体的联合数据集上进行训练,我们的通用策略在任务完成准确性上相比使用单个智能体数据集训练的策略提高了高达 42.20%。
arXiv:2502.14760v1 宣告类型: 新
摘要: 在组合优化中,识别等价表示是基础问题之一,这可以导致更有效的求解策略,并深入理解问题的计算复杂性。随着优化协程(优化助手系统)的普及——这些系统能够从自然语言描述中生成问题表示——自动识别表示等价性的需求日益增长。然而,现有的表示等价性验证方法缺乏坚实的基础,依赖于简单的启发式方法,这些方法不足以进行严格的验证。受Karp归约的启发,本文提出了一种准Karp等价性形式准则,基于决策变量之间的映射来确定两个优化表示是否等价。我们提出了EquivaMap框架,利用大规模语言模型自动发现这种映射,从而实现可扩展且可靠的等价性验证。为了评估我们的方法,我们构建了首个开源的等价优化表示数据集,该数据集通过在现有表示上应用添加松弛变量或有效不等式等变换生成。实验证明,EquivaMap 显著优于现有方法,在正确识别表示等价性方面取得了重大进步。
arXiv:2502.14714v1 宣布类型: 新颖
摘要:LLM模型的生成能力为加速任务提供了机遇,但同时也引发了对其生成知识真实性的担忧。为解决这些问题,我们提出了一种计算方法,系统性地评估LLM模型被提示生成的生物医学知识的事实准确性。该方法包括两个步骤:疾病为中心的关联生成和利用生物医学本体的语义知识验证这些关联。我们选用ChatGPT作为选定的LLM模型,设计了一系列提示工程步骤,以生成疾病、药物、症状和基因之间的联系,为评估奠定基础。实验结果显示,在识别疾病术语(88%-97%)、药物名称(90%-91%)和遗传信息(88%-98%)方面具有高准确性。而症状术语的识别准确性相对较低(49%-61%),并在相应地与DOID、ChEBI、SYMPTOM和GO本体验证后得到了证实。关联验证显示,疾病-药物和疾病-基因关联的文献覆盖率为(89%-91%)。症状术语识别准确率较低也影响了症状相关关联的验证(49%-62%)。
arXiv:2502.14706v1 宣布类型: 新
摘要: 模拟代理对于设计和测试与人类互动的系统至关重要,例如自动驾驶车辆(AV)。这些代理具有多种用途,从测试AV性能到测试系统的极限,但所有应用场景都共享一个关键要求:可靠性。模拟代理应按设计人员的意图行事,尽量减少可能破坏分析信噪比的意外行为,如碰撞。为可靠模拟代理奠定基础,我们建议在Waymo Open Motion数据集上,基于人类感知和控制的半现实限制,扩展自我对弈至数千种场景。在一台GPU上从头开始训练,我们的代理几乎能在一天内解决完整的训练集。它们有效地泛化到未见过的测试场景,在10,000个保留的测试场景中,目标完成率达到99.8%,而总碰撞和离路事件的比例低于0.8%。除了适应分布内的泛化,我们的代理部分对分布外场景具有鲁棒性,并且可以在几分钟内进行微调,以在这些情况下达到接近完美的性能。代理行为的演示可以在该链接中找到。我们开源了预训练代理和完整的代码库。代理行为的演示可以在 \url{https://sites.google.com/view/reliable-sim-agents}找到。
arXiv:2502.14581v1
公告类型:新
摘要:经验性的人机一致性旨在使AI系统的行为与观察到的人类行为保持一致。虽然其目标是崇高的,但我们认为经验性对齐可能会无意中引入统计偏见,这需要我们谨慎对待。因此,本文提倡避免简单的经验性对齐,而应该选择有建议性的对齐和事后经验性对齐作为替代方案。我们通过以人类为中心的语言模型解码等具体案例来支撑我们的原则性论点。
arXiv:2502.14563v1 通告类型: 新增
摘要:大型语言模型(LLMs)在任务规划的推理方面展现了卓越的能力。然而,关于并行调度的问题仍然研究不足。本文介绍了一种新颖的方法,即plan-over-graph,在此方法中,模型首先将实际文本任务分解为可执行的子任务,并构建一个抽象的任务图。然后,模型将此任务图作为输入,并生成一个适用于并行执行的计划。为了增强复杂可扩展图的规划能力,我们设计了一个自动且可控的管道来生成合成图,并提出了一种两阶段训练方案。实验结果表明,我们的plan-over-graph方法显著提高了基于API的LLMs和可训练的开源LLMs的任务性能。通过将复杂任务规范化为图的形式,我们的方法自然支持并行执行,展示了全局效率。相关代码和数据可在 https://github.com/zsq259/Plan-over-Graph 获取。
arXiv:2502.14491v1 安全类型:新
摘要:评估AI安全性需要严格的方法和风险指标,以理解AI的应用如何影响整体风险。然而,许多AI安全文献主要集中于AI模型本身的潜在风险,而忽视了模块化使用AI如何影响工作流组件的风险分配或整体风险指标。此外,在缺乏统计基础的情况下,也难以使风险模型在有无AI的情况下敏感化,以估算AI的因果贡献。这在一定程度上是由于缺乏可用于拟合分布的AI影响数据。在本工作中,我们从两方面解决了这些问题。首先,我们展示了如何通过情景建模(基于现有的统计技术如马尔可夫链、 copulas 和蒙特卡洛模拟)来全面建模AI风险。其次,我们展示了如何使用类似AI现象的替代分布来估计在无法直接观察数据的情况下AI的影响。我们通过风险分析模拟物流情景来验证我们方法对于基准累计AI风险的实用性。