arXiv:2504.13314v1 宣布类型: 新作
摘要:欧盟的人工智能(AI)法案为高风险领域定义了稳健性、韧性和安全性要求,但缺乏详细的评估方法。本文介绍了一个新的框架,用于定量评估强化学习代理在拥堵管理中的稳健性和韧性。通过使用AI友好的数字环境Grid2Op,扰动代理通过扰动AI系统的输入来模拟自然和敌对的中断,而不改变环境的实际状态,从而可以在各种场景下评估AI的性能。通过稳定性和奖励影响指标衡量稳健性,而韧性则通过绩效下降后的恢复能力来衡量。结果表明,该框架在识别漏洞并提高关键应用中AI的稳健性和韧性方面具有有效性。
arXiv:2504.13263v1 通知类型: 新
摘要: 因果分析在科学研究和可靠决策中发挥着基础性作用,但由于其概念和算法的复杂性,它对领域专家来说仍难以触及。因果方法与实际应用之间的这种脱节提出了双重挑战:领域专家无法利用因果学习的最新进展,而因果研究者则缺乏广泛的实际应用来测试和优化他们的方法。为了解决这个问题,我们引入了Causal-Copilot,这是一种自主代理,它在大规模语言模型框架内实现了专家级的因果分析。Causal-Copilot自动化了因果分析的整个流程,包括因果发现、因果推理、算法选择、超参数优化、结果解析以及产生可操作的洞见。它通过自然语言支持互动改进,从而降低非专家的门槛,同时保持方法论的严谨性。通过集成超过20种最先进的因果分析技术,我们的系统促进了良性的循环——扩大领域专家对高级因果方法的访问,同时创建丰富的实际应用来指导和推进因果理论。实证评估表明,Causal-Copilot的性能优于现有基线,提供了一个可靠、可扩展和可扩展的解决方案,能够弥合因果分析在理论精密度和实际应用性之间的差距。
arXiv:2504.13210v1 宣告类型: 新
摘要:因果关系和博弈理论是两个对各领域决策制定有重大影响的领域。因果关系定义并建模了复杂政策问题中的因果关系,而博弈理论则提供了利益相互竞争的利益相关者之间的战略互动的见解。将这些框架结合起来已经导致了重要的理论进展,有可能改进决策过程。然而,这些进展在实际应用中的潜力尚未得到广泛探索。为了支持实施努力,本文澄清了因果关系和博弈理论中它们交叉点的关键概念,特别是在概率图形模型的背景下。通过严格检查这些概念并用直观且一致的示例加以说明,我们澄清了实现这些模型所需的输入,为实践者提供了在不同场景下应用和选择它们的见解,并引用了支持它们实施的研究。我们希望这项工作能够促进这些模型在实际场景中的更广泛采用。
arXiv:2504.13202v1 宣布类型: 新颖
摘要: 在之前的文章中,我们提出了一种基于量子启发式框架来建模大语言模型(LLMs)中的语义表示和处理,借鉴了量子力学中的数学工具和概念类比,为这些复杂系统的研究提供了一个新的视角。在本文中,我们明确了这一模型的核心假设,提供了六条关键原则的详细阐述,这些原则规范了LLMs中的语义表示、交互和动态。目标是证明基于量子启发式的框架是一种有效的研究语义空间的方法。该框架为理解它们的信息处理和响应生成提供了有价值的见解,并进一步讨论了利用量子计算根据这些原则开发更强大、更高效的LLMs的潜力。
arXiv:2504.11967v2 宣告类型: replace-cross
摘要:无人机(UAVs)在基础设施检查、监控及相关任务中不可或缺,但也带来了关键的安全挑战。本文综述了无人机反制领域,围绕分类、检测和跟踪三大核心目标展开,详细介绍了诸如基于扩散的数据合成、多模态融合、视觉-语言建模、半监督学习和强化学习等新兴方法。我们在单模态和多传感器管道(涵盖RGB、红外、音频、雷达和射频)之间系统地评估了最先进的解决方案,并讨论了大规模以及对抗性导向的基准测试。我们的分析揭示了实时性能、隐身检测和群集场景中的持续差距,突出了需要稳健且适应性强的无人机反制系统的紧迫需求。通过突出开放的研究方向,我们旨在促进创新,并指导在无人机广泛使用的时代下下一代防御策略的发展。
arXiv:2504.11901v2 宣布类型: 替换-交叉
摘要:随着机器人在共享环境中(如仓库、购物中心和医院)的日益集成,对其潜在动态和人类行为的理解变得愈发重要,包括个体在何时、何地参与各种活动和互动的方式。这种知识超越了简单的相关性研究,需要更全面的因果分析。通过利用因果推理来建模因果关系,我们可以更好地预见关键的环境因素,并使自主机器人能够更有效地规划和执行任务。为此,我们提出了一种新颖的基于因果关系的决策框架,该框架基于学习到的因果模型进行推理,以预测电池使用情况和人类障碍,理解这些因素如何影响机器人任务的执行。这样的推理框架帮助机器人决定何时以及如何完成给定的任务。为了实现这一点,我们还开发了 PeopleFlow,这是一种新的基于 Gazebo 的模拟器,旨在模拟共享工作空间中上下文敏感的人机空间互动。PeopleFlow 包含受时间、环境布局和机器人状态等上下文因素影响的真实人类和机器人轨迹,并可模拟大量代理。虽然模拟器具有通用性,但在本文中,我们将重点研究一个类似于仓库的环境作为案例研究,我们在其中进行了广泛的评估,并将我们提出的因果方法与非因果基线进行了基准测试。我们的发现证实了所提解决方案的有效性,突显了因果推理如何使自主机器人在与人类共享的动态环境中更高效、更安全地运行。
arXiv:2504.11793v2 宣传类型: 替换-交叉
摘要:在训练大型语言模型(LLM)时,联邦学习(FL)在通信开销和模型隐私方面面临着重大挑战,尤其是在医疗保健应用程序中。为了解决这些问题,我们提出了选择性注意力联邦学习(SAFL),这是一种新颖的方法,能够动态地仅调整被识别为注意力关键的变压器层。通过使用注意力模式来确定层的重要性,SAFL 显著减少了通信带宽并增强了差分隐私的抗性。在临床自然语言处理基准测试(i2b2 临床概念提取和 MIMIC-III 出院总结)上的评估表明,SAFL 在性能上与集中模型相当,同时大幅提高了通信效率和隐私保护。
arXiv:2504.11711v2 宣告类型: 替换-交叉
摘要:静态分析是软件漏洞检测的基础,但常常难以克服经典的精确度-可扩展性权衡。实践中,这类工具往往在大型代码库(如Linux内核)中产生较高的假阳性率。这种不精确性可能是由于简化了漏洞建模和路径及数据约束的过度逼近所致。尽管大型语言模型(LLMs)在代码理解方面显示出前景,但它们在程序分析中的直接应用会由于内在的推理限制而导致不可靠的结果。我们引入了BugLens,这是一种后精炼框架,显著提高了静态分析的精确度。BugLens通过评估buggy代码模式对安全的影响并验证与静态警告相关的约束,来指导LLM遵循传统的分析步骤。在实际的Linux内核漏洞上进行评估时,BugLens将精确度从原始的0.10和半自动化精炼的0.50提高到0.72,显著减少了假阳性,并揭示了四个之前未报告的漏洞。我们的实验结果表明,结构化的LLM工作流程可以显著增强静态分析工具的有效性。
arXiv:2504.11536v2 通知类型: 替换-交叉
摘要:虽然使用强化学习(RL)训练的推理模型(例如 DeepSeek R1)在文本推理方面表现出色,但在需要结构化问题解决的情景下,如几何推理、简洁计算或复杂方程求解——这些领域中计算工具(如代码解析器CI)展示了明显的优势——推理模型却显得力不从心。为了解决这一问题,我们提出了 ReTool,它通过工具集成学习增强了长形式的推理,包括两个关键功能:(1)自然语言推理过程中实时代码执行的动态交织,(2)一种自动化的 RL 架构,允许多轮实时代码执行的策略展开,并根据结果反馈教诲模型何时以及如何调用工具。ReTool 采用了一种系统性的训练框架,始于从合成冷启动数据生成代码增强的长形式推理痕迹,用于微调基础模型。随后的 RL 训练利用任务结果作为奖励,逐步细化模型的工具使用策略,使其能够自主发现最优的工具调用模式,无需先验的人工知识。在具有挑战性的数学奥林匹克竞赛基准 AIME 上的实验结果显示 ReTool 的优越性:我们的 32B 模型在 400 次训练步骤中取得了 67% 的准确率,优于文本基线(40% 准确率,1080 步训练)在效率和性能上的表现。令人惊讶的是,ReTool-32B 在扩展设置下达到了 72.5% 的准确率,超过了 OpenAI 的 o1-preview 27.9%。进一步的分析显示了诸如代码自我修正等新兴行为,暗示了一种“恍然大悟”的时刻,在这个时刻,模型自主掌握了适应性工具使用。这些发现凸显了结果驱动的工具集成在推进复杂数学推理方面所展现出的潜力,并为混合神经符号系统提供了新的见解。
arXiv:2504.10982v3 宣告类型: replace-cross
摘要:大型语言模型(LLMs)在医学问答(QA)方面表现良好,但在日本语环境中由于隐私限制,商业模型如GPT-4在临床环境中无法使用,因此其有效性受到限制。由于这种限制,最近的努力集中在指令调优开源LLMs上,尽管将它们与检索增强生成(RAG)结合使用的可能性尚未得到充分探索。为了解决这一差距,我们首次探索了一种基于知识图谱(KG)的RAG框架,用于日本医学问答小型开源LLMs。实验结果显示,基于知识图谱的RAG对使用小型开源LLMs进行日本医学问答的影响有限。进一步的案例研究揭示,RAG的有效性高度依赖于外部检索内容的质量和相关性。这些发现为在日语医学问答中应用RAG面临的挑战和潜力提供了有价值的看法,并且也为其他低资源语言提供了参考。