arXiv 论文列表

基于RAG的多Agent大语言模型系统以增强自然灾害韧性与适应性

作者: Yangxinyu Xie, Bowen Jiang, Tanwi Mallick, Joshua David Bergerson, John K. Hutchison, Duane R. Verner, Jordan Branham, M. Ross Alexander, Robert B. Ross, Yan Feng, Leslie-Anne Levy, Weijie Su, Camillo J. Taylor

arXiv:2402.07877v3 通告类型: 替换摘要：大规模语言模型（LLMs）是人工智能和机器学习领域的变革性能力，能够支持决策者应对诸如极端自然灾害事件等紧迫的社会挑战。作为通用模型，LLMs 常常难以提供情境特定的信息，尤其是在需要专门知识的领域。在本文中，我们提出了一种基于检索增强生成（RAG）的多智能体语言模型系统，以支持在自然灾害和极端天气事件背景下的分析和决策。作为概念验证，我们介绍了专门针对野火场景的 WildfireGPT 系统。该架构采用用户为中心、多智能体的设计，为不同利益相关群体提供量身定制的风险洞察。通过将特定领域的数据集、观测数据集和科学文献整合到 RAG 框架中，该系统确保了所提供信息的准确性和上下文相关性。在十项由专家领导的案例研究中，评估结果表明，WildfireGPT 在自然灾害和极端天气情境下的决策支持方面显著优于现有的基于语言模型的解决方案。

发布时间: 3/31/2025

查看原文

Sherlock Holmes 不掷骰子：在可能发生但连自己都无法搞清楚的事情中的不确定推理数学

作者: Guido Fioretti

arXiv:2309.03222v3 声明类型：替换摘要：虽然证据理论（也称为德蒙特-沙弗理论或信念函数理论）在数据融合中的应用越来越广泛，但在社会和生命科学中的潜力往往因为对其独特特征缺乏认识而被遮蔽。特别是，本文强调，扩展版的证据理论可以表达一种不确定感，这种不确定感源自于害怕某些事件可能会发生，而这些事件甚至无法想象。相比之下，概率理论只能局限于决策者当前设想的可能性。我将这种扩展版的证据理论与概率理论的一些复杂扩展形式进行比较，如非精确概率和次加性概率，以及在数据融合和文化信息传输中使用的非传统信息理论版本。还概述了进一步扩展到多代理交互的内容。

发布时间: 3/31/2025

查看原文

DSO：通过仿真反馈对齐3D生成器以实现物理一致性

作者: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi

arXiv:2503.22677v1 交叉公告类型摘要：大多数3D对象生成器专注于美学质量，常常忽略了在实际应用中必要的物理约束。其中之一就是3D对象应该自支撑，即在重力作用下保持平衡。先前生成稳定3D对象的方法利用可微物理模拟器在测试时优化几何形状，这种方法速度慢、不稳定且容易陷入局部最优。受到将生成模型与外部反馈对齐的文献启发，我们提出了一种直接模拟优化（DSO）框架，利用非可微模拟器的反馈来增加3D生成器直接输出稳定3D对象的可能性。我们构建了一个带有从物理模拟器获得的稳定性评分的3D对象数据集。然后，我们可以使用稳定性评分作为对齐度量，通过直接偏好优化（DPO）或直接奖励优化（DRO）进行微调，这是一种我们引入的新目标，无需成对偏好，即可对扩散模型进行对齐。我们的实验表明，使用DPO或DRO目标的微调前馈生成器比测试时优化生成更加稳定且速度快得多。值得注意的是，DSO框架即使在没有用于训练的真实3D对象的情况下也能发挥作用，允许3D生成器通过自动收集自身输出的模拟反馈来自我改进。

发布时间: 3/31/2025

查看原文

先思考后推荐：释放顺序推荐中的潜在推理能力

作者: Jiakai Tang, Sunhao Dai, Teng Shi, Jun Xu, Xu Chen, Wen Chen, Wu Jian, Yuning Jiang

arXiv:2503.22675v1 宣告类型: cross 摘要: 序列推荐 (SeqRec) 旨在通过捕获用户历史交互中的序列模式来预测下一个项目，在许多实际推荐系统中扮演着至关重要的角色。然而，现有的方法主要采用直接前向计算范式，其中序列编码器的最终隐藏状态作为用户表示。我们认为，由于这种推理范式限制了计算深度，难以建模用户偏好复杂演变的性质，并缺乏对长尾项的细致理解，导致性能不佳。为了解决这一问题，我们提出 \textbf{ReaRec}，这是推荐系统中首个推理时计算框架，通过隐式多步推理增强用户表示。具体而言，ReaRec 自回归地将序列的最后一个隐藏状态输入到序列推荐器中，并结合特殊的推理位置嵌入来从原始项目编码空间解耦多步推理空间。此外，我们引入了两种轻量级基于推理的学习方法，即集成推理学习 (ERL) 和逐步推理学习 (PRL)，以进一步有效利用 ReaRec 的推理潜力。在五个公开的实际数据集和不同 SeqRec 架构上的广泛实验中，证明了我们提出的 ReaRec 的通用性和有效性。令人惊讶的是，事后分析显示，ReaRec 显著提高了多个序列推荐主干的性能天花板，提升幅度约为 30\%-50\%。因此，我们认为这项工作可以为未来推荐系统推理时计算的研究打开一条新的有前景的道路。

发布时间: 3/31/2025

查看原文

探索多阶段微调对跨编码重排序器效果的研究

作者: Francesca Pezzuti, Sean MacAvaney, Nicola Tonellotto

arXiv:2503.22672v1 交叉类型: 综合摘要: 当前最先进的交叉编码器可以被微调为在段落重排序方面非常有效。交叉编码器作为重排器的典型微调过程需要大量的手动标注数据、对比学习目标以及一组启发式采样的负样本。另一种最近的微调方法则涉及通过传导目标让模型模仿高性能大型语言模型的排名。这些微调策略可以单独应用，或者按顺序应用。在本研究中，我们系统地考察了单独在一个阶段或在两个阶段按顺序微调的点对点交叉编码器的有效性。我们的实验表明，使用对比学习进行微调的点对点交叉编码器的有效性确实与使用多阶段方法进行微调的模型相当。相关代码可在 https://github.com/fpezzuti/multistage-finetuning 获取。

发布时间: 3/31/2025

查看原文

基于计数的相似度度量评价机器生成的生物医学图像

作者: Frank J. Brooks, Rucha Deshpande

arXiv:2503.22658v1 Announce Type: 对比摘要：超分辨、修复、全图像生成、无配对风格转换和网络约束图像重建各自包含一种实际地面真实值在使用时未知的机器学习图像合成方面。一般而言，在定量和权威性地评估合成图像的质量方面存在困难；然而，在关键医疗保健场景中，稳健的评估至关重要。在这项工作中，所有的实际图像到图像比较其实是相对评估，而不是绝对差异的量化；因此，可以使用Tversky指数进行生成图像质量的有意义评估，这是一个广泛认可的评估感知相似性的度量。该评估程序首先开发，然后使用多个真实和模拟图像数据集进行演示。主要结果是，当将任何特征编码选择的主观性和内在缺陷置于首位时，Tversky的方法会产生直观的结果，而基于总结深层特征空间距离的传统方法则不会。

发布时间: 3/31/2025

查看原文

基于像素的平面推物体扩散政策的仿真实验与实时协训练 empirical 分析

作者: Adam Wei, Abhinav Agarwal, Boyuan Chen, Rohan Bosworth, Nicholas Pfaff, Russ Tedrake

arXiv:2503.22634v1 类型: cross 摘要：在机器人学的模拟学习中，使用在模拟和真实硬件上生成的演示数据进行协同训练已成为克服模拟到现实差距的强大方法。本文旨在阐明这种模拟与现实协同训练的基本原理，以帮助设计模拟环境、创建模拟与现实的数据集以及训练策略。我们将研究集中在平面推物体这一经典任务上，通过来自摄像头的输入，使我们能够在研究中做到详尽无遗。这些实验证实，与模拟数据进行协同训练可以显著提高在真实环境中的性能，尤其是在真实数据有限的情况下。随着模拟数据的增加，性能提升会逐渐达到 plateau；而真实世界的数据会提高这一性能上限。此外，结果还表明，对于非抓握性操作任务，减少物理学领域的差距可能比提高视觉保真度更为重要。令人惊讶的是，存在一定的视觉领域差距实际上有助于协同训练策略——二进制探针显示，高性能策略学会了区分模拟域与真实环境。最后，我们探讨了这种细微差别以及促进模拟与现实之间正向迁移的机制。总共，我们的实验涵盖了超过40个真实世界策略（在800多次试验中评估）和200个模拟策略（在4万多次试验中评估）。

发布时间: 3/31/2025

查看原文

软件工程中人工智能的挑战与前进道路

作者: Alex Gu, Naman Jain, Wen-Ding Li, Manish Shetty, Yijia Shao, Ziyang Li, Diyi Yang, Kevin Ellis, Koushik Sen, Armando Solar-Lezama

arXiv:2503.22625v1 宣告类型：交叉摘要：软件工程中的AI最近取得了显著进步，成为生成型AI中的显著成功案例。尽管如此，在自动化软件工程达到其全部潜力之前，仍有许多挑战需要解决。理论上，应该能够实现高度自动化的水平，使人类能够专注于重要的决策——构建什么以及如何权衡复杂的权衡——而大多数常规的开发工作则被自动化消除。要达到这一水平的自动化，需要在学术界和业界进行大量研究和工程努力。在本文中，我们旨在以三方面的方式讨论朝着这一目标的进步。首先，我们提供了一个结构化的软件工程中AI具体任务的分类，强调了除了代码生成和完成之外软件工程中的许多其他任务。其次，我们概述了当前方法中的一些关键瓶颈。最后，我们提供了一些建议的研究方向，旨在解决这些瓶颈，希望激发该快速成熟的领域未来的研究。

发布时间: 3/31/2025

查看原文

评估针对视障用户的多模态语言模型视觉辅助功能

作者: Antonia Karamolegkou, Malvina Nikandrou, Georgios Pantazopoulos, Danae Sanchez Villegas, Phillip Rust, Ruchira Dhar, Daniel Hershcovich, Anders S{\o}gaard

arXiv:2503.22610v1 类型: cross 摘要：本文探讨了多模态大型语言模型（MLLMs）作为视觉障碍个体辅助技术的有效性。我们进行了一项用户调查，以识别这些技术的采用模式以及用户面临的关键挑战。尽管这些模型的采用率很高，但我们的研究结果突显了与情境理解、文化敏感性和复杂的场景理解相关的关切，特别是对于那些可能完全依赖这些技术进行视觉解释的个体。基于这些结果，我们整理了五个以图像和视频输入为中心的用户任务，包括一项新的光学盲文识别任务。对十二种MLLMs的系统评估揭示了进一步发展以克服与文化背景、多语言支持、盲文阅读理解、辅助对象识别和幻觉相关的限制的必要性。这项工作为多模态AI未来在无障碍方面的方向提供了关键见解，强调了更包容、更稳健和更可信的视觉辅助技术的必要性。

发布时间: 3/31/2025

查看原文

基于流匹配的生成潜空间神经偏微分方程求解器

作者: Zijie Li, Anthony Zhou, Amir Barati Farimani

arXiv:2503.22600v1 公告类型: cross 摘要：自回归下一步预测模型已成为构建数据驱动神经求解器以预测时间相关偏微分方程(PDEs)的标准方法。与去噪扩散概率模型密切相关的去噪训练已被证明能够增强神经求解器的时间稳定性，同时其随机推理机制使集合预测和不确定性量化成为可能。原则上，这种训练涉及到在训练和推理过程中采样一系列离散的扩散时间步长，不可避免地增加了计算开销。此外，大多数扩散模型在结构化和均匀网格上施加各向同性的高斯噪声，这限制了它们对不规则域的适应性。我们提出了一种用于PDE模拟的潜在扩散模型，将PDE状态嵌入到一个低维潜在空间中，从而显著减少了计算成本。我们的框架使用自编码器将不同类型的网格映射到统一的结构化潜在网格，捕捉复杂几何形状。通过对常见的扩散路径进行分析，我们提出使用从流匹配中获得的粗采样噪声调度来进行训练和测试。数值实验表明，所提出的模型在准确性和长期稳定性方面都优于几种确定性基线，突显了基于扩散的方法在鲁棒数据驱动PDE学习中的潜在价值。

发布时间: 3/31/2025

查看原文