arXiv 论文列表

多代理LLM系统为什么失败？

作者: Mert Cemri, Melissa Z. Pan, Shuyi Yang, Lakshya A. Agrawal, Bhavya Chopra, Rishabh Tiwari, Kurt Keutzer, Aditya Parameswaran, Dan Klein, Kannan Ramchandran, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica

arXiv:2503.13657v2 宣告类型: 重置摘要: 尽管多智能体大型语言模型系统（MAS）越来越受到人们的关注，但它们在流行的基准测试中的性能提升往往仍然不如单智能体框架。这一差距凸显了系统地分析阻碍MAS有效性的挑战的必要性。我们提出了MAST（多智能体系统故障分类法），这是第一个通过实证研究设计的分类法，旨在理解MAS故障。我们分析了七个流行的MAS框架，涉及超过200项任务，有六名专家人工标注者参与。通过这一过程，我们识别出14种独特的故障模式，并将其分为三大类：（i）规范问题，（ii）智能体间不对齐，和（iii）任务验证。MAST通过严谨的标注者间一致性研究逐步形成，达到了Kappa评分0.88。为了支持可扩展的评估，我们开发了一种验证的LLM作为裁判的管道，与MAST集成。我们利用两个案例研究展示了MAST在故障分析和指导MAS开发中的实际应用。我们的发现表明，识别出的故障需要更复杂的解决方案，这为未来研究指明了清晰的道路。我们开源了全面的数据集和LLM标注者，以促进MAS的进一步开发。

发布时间: 4/24/2025

查看原文

MedMax: 混合模态指令调优用于培训生物医学助手

作者: Hritik Bansal, Daniel Israel, Siyan Zhao, Shufan Li, Tung Nguyen, Aditya Grover

arXiv:2412.12661v2 通告类型: 替换摘要: 近期在混合模态生成方面的突破为开发能够分析生物医学影像、回答关于它们的复杂问题并生成多模态患者报告的统一生物医学助手打开了新的途径。然而，现有的数据集面临挑战，如数据量小、生物医学任务和领域覆盖面有限以及依赖单一来源。为解决这些不足，我们提出了 MedMax，这是一个大规模的混合模态生物医学指令调整数据集，用于混合模态基础模型。MedMax 包含 147 万实例，涵盖了从交错的图像-文本生成到生物医学图像配字生成、视觉聊天以及报告理解等一系列任务。这些任务横跨多样的生物医学领域，包括放射学和显微病理学，并基于医学论文和 YouTube 视频。随后，我们使用 MedMax 数据集对混合模态基础模型进行微调，取得了显著的性能提升：在 12 项下游生物医学视觉问答任务中，相对于 Chameleon 模型的提升为 26%，相对于 GPT-4o 的提升为 18.3%。最后，我们引入了一个统一的评估套件，以指导混合模态生物医学 AI 助手的发展。数据、模型和代码可在 https://mint-medmax.github.io/ 获取。

发布时间: 4/24/2025

查看原文

基于SNN的开放世界中的概念和动作定律的在线学习

arXiv:2411.12308v3 自主类型：替换摘要：我们介绍了一种基于脉冲神经网络（SNN）构建的全自主仿生认知代理的架构，该SNN实现了代理的语义记忆。该代理在其宇宙中探索，并以一次学习的方式学习对象/情景的概念和自身的动作概念。虽然对象/情景概念是单项的，但动作概念是由初始情景、一种运动行为和结果组成的三元组。它们包含了代理对其宇宙中动作法则的知识。这两种类型的概念具有不同的通用性。为了做出决策，代理查询其语义记忆以获取预期的行动结果，并根据这些预测来选择要采取的动作。我们的实验表明，该代理通过依赖之前学习的通用概念来处理新的情景，并能迅速修改其概念以适应环境的变化。

发布时间: 4/24/2025

查看原文

多模态情境安全性

作者: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang

arXiv:2410.06172v2 宣告类型: 更新摘要：多模态大型语言模型（MLLMs）正迅速发展，展现出作为既能与人类又能与环境交互的多模态助手的令人印象深刻的能力。然而，这种增加的复杂性引入了重大的安全问题。在本文中，我们提出了首个对一种新颖的安全挑战——多模态情境安全进行评估和分析的方法，该挑战探讨了安全考虑在用户或代理所参与的具体情境中如何变化。我们认为，为了使MLLM以语言或行动安全地响应，它通常需要在相应的视觉上下文中评估语言查询的安全影响。为了评估这种能力，我们开发了多模态情境安全基准（MSSBench）来评估当前MLLMs的情境安全性表现。数据集包含1,820个语言查询-图像对，其中一半图像上下文是安全的，另一半是不安全的。我们还开发了一种评估框架，分析了关键的安全方面，包括明确的安全推理、视觉理解，以及至关重要的情境安全推理。我们的研究发现揭示了当前MLLMs在指令遵循设置中难以应对这种细微的安全问题，难以一次性解决这些情境安全挑战，突显了未来研究的关键领域。此外，我们开发了多代理管道以协调解决安全挑战，这在原始MLLM响应上显示出一致的改进。代码和数据：mssbench.github.io。

发布时间: 4/24/2025

查看原文

评估ML在GNSS干扰分类、特征描述与定位中的稳健性

作者: Lucas Heublein, Tobias Feigl, Thorsten Nowak, Alexander R\"ugamer, Christopher Mutschler, Felix Ott

arXiv:2409.15114v3 宣布类型: 替换摘要: 阻塞设备干扰全球导航卫星系统(GNSS)信号并构成重大威胁，因为它们破坏了准确定位的鲁棒性。有效对抗这些干扰的关键在于在频段快照中检测异常。一种关键的初步应对措施是可靠地分类干扰，并对阻塞设备进行表征和定位。本文介绍了一个包含从低频天线获取的快照数据集，这些快照捕捉了一个大型环境中的各种人为多路径干扰，包括受控的多路径效应。我们的目标是评估机器学习(ML)模型在面对环境变化(如多路径效应)、干扰属性变化(如干扰类别、带宽和信号功率)、阻塞设备定位的准确性以及快照输入长度带来的约束方面的鲁棒性。此外，我们还评估了129种不同视觉编码器模型在所有任务中的性能。通过分析 aleatoric 和 epistemic 不确定性，我们展示了我们的模型在多种方面的一般化能力，从而确立其适用于实际应用的适用性。数据集: https://gitlab.cc-asp.fraunhofer.de/darcy_gnss/controlled_low_frequency

发布时间: 4/24/2025

查看原文

基于上下文感知一致性学习的时间序列分类框架（针对分割时间序列）

作者: Junru Chen, Tianyu Cao, Jing Xu, Jiahe Li, Zhilong Chen, Tao Xiao, Yang Yang

arXiv:2408.00041v3 公告类型: 替换摘要: 时间序列分类（TSC）包含两种设置：整个序列分类或分割子序列分类。分割时间序列中的原始时间序列通常包含每个类别的持续时间不同的多个类别（MVD）。因此，MVD 的特性为分割 TSC 带来了独特的挑战，但现有的工作对此大多都未予重视。具体来说，在 MVD 中，需要分类的连续实例（片段）之间存在自然的时间依赖性。然而，主流 TSC 模型依赖独立且相同分布（i.i.d.）的假设，专注于独立地建模每个片段。此外，不同熟练程度的标注员可能提供不一致的边界标签，导致无噪声 TSC 模型的不稳定性能。为了解决这些挑战，我们首先正式证明了背景信息对分类实例的区分能力具有增强作用。利用 MVD 在数据和标签两个层次上的背景先验，我们提出了一种新的一致性学习框架 Con4m，它有效地利用了更利于区分连续片段的背景信息，同时对训练中的不一致边界标签进行了协调。通过在多个数据集上的广泛实验验证了 Con4m 在处理 MVD 上的分割 TSC 任务的有效性。源代码可在 https://github.com/MrNobodyCali/Con4m 获取。

发布时间: 4/24/2025

查看原文

专利领域的自然语言处理：一种综述

作者: Lekang Jiang, Stephan Goetz

arXiv:2403.04105v3 通知类型: 重置摘要：专利包含以文本形式和参考图示封装的重要技术和法律信息，为自然语言处理（NLP）应用提供了丰富的领域。随着NLP技术的发展，大型语言模型（LLMs）在通用文本处理和生成任务中展现了出色的性能。然而，由于专利的复杂性，特别是其语言和法律框架，LLMs 在专利领域的应用仍然未被充分探索和开发。因此，了解专利文档的独特特性和相关研究对于研究人员有效应用这些工具至关重要。因此，本文旨在为NLP研究人员提供导航这一复杂领域的必要知识。我们介绍了与专利相关的基础方面，提供了坚实的基础信息。此外，我们系统地分解了专利的独特结构和语言特性，并绘制出如何利用NLP进行专利分析和生成。此外，我们展示了文本和多模态专利相关任务的光谱，包括九项专利分析和四项专利生成任务。

发布时间: 4/24/2025

查看原文

WildfireGPT：专门用于野火分析的大语言模型

作者: Yangxinyu Xie, Bowen Jiang, Tanwi Mallick, Joshua David Bergerson, John K. Hutchison, Duane R. Verner, Jordan Branham, M. Ross Alexander, Robert B. Ross, Yan Feng, Leslie-Anne Levy, Weijie Su, Camillo J. Taylor

arXiv:2402.07877v4 宣告类型: 修订摘要：大型语言模型（LLMs）的最新进展代表着人工智能领域的变革性能力。然而，LLMs是普适模型，已在广泛的文本语料库中进行训练， often struggle to provide context-specific information，特别是在需要专业领域知识的领域中，例如，在气候变化的背景下获得有关野火的详细信息。对于专注于野火韧性和适应性的决策者而言，获得不仅精确而且具有专业领域的响应至关重要。为此，我们开发了WildfireGPT，这是一种原型LLM代理，旨在将用户查询转化为有关野火风险的可操作见解。我们通过提供额外的上下文，如气候预测和科学文献，来丰富WildfireGPT，以确保其信息的时效性、相关性和科学准确性。这使得WildfireGPT能够成为一种有效的工具，为包括但不仅限于研究人员和工程师在内的各种最终用户提供详细的、用户特定的野火风险见解，以支持积极的影响和决策。

发布时间: 4/24/2025

查看原文

大型语言模型在具身导航领域的进展：一个综述

作者: Jinzhou Lin, Han Gao, Xuxiang Feng, Rongtao Xu, Changwei Wang, Man Zhang, Li Guo, Shibiao Xu

arXiv:2311.00530v5 宣传类型: 替换摘要: 近年来，由于在多种实际应用中展现出的巨大潜力，大型语言模型（LLMs）如生成预训练变换器（GPT）取得了快速进步，吸引了越来越多的关注。以具身智能应用为例，LLMs的应用已成为一个重要关注领域。鉴于LLMs在众多应用中的广泛用途，导航任务尤为突出，因为它们要求对环境有深刻的理解，并且需要快速、准确的决策。LLMs可以利用其强大的语言和图像处理能力，增强具身智能系统中的环境感知和决策支持功能。本文对LLMs与具身智能的共生关系进行了详尽的总结，重点在于导航。回顾了最新的模型、研究方法，并评估了现有具身导航模型和数据集的优势和不足。最后，本文基于当前的研究，阐述了LLMs在具身智能中的角色，并预测了该领域未来的发展方向。在本文调查中，关于该领域的研究列表可在 https://github.com/Rongtao-Xu/Awesome-LLM-EN 获取。

发布时间: 4/24/2025

查看原文

I-Con：一种统一的表示学习框架

作者: Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton

arXiv:2504.16929v1 交叉公告类型摘要：随着表示学习领域的不断发展，出现了多种用于解决不同类型问题的不同损失函数。我们介绍了一个单一的信息论方程，它泛化了机器学习中许多现代损失函数。特别是，我们引入了一个框架，展示了多种机器学习方法实际上是在精确地最小化两个条件分布之间的集成KL散度：监督表示和学习表示。这种观点揭示了聚类、谱方法、降维、对比学习和监督学习背后的隐藏信息几何。该框架通过结合文献中成功的各种技术来开发新的损失函数。我们不仅呈现了广泛的证明，连接了超过23种不同的方法，还利用这些理论结果创建了在ImageNet-1K的无监督分类中比之前最先进的方法高出8%的新颖的无监督图像分类器。此外，我们展示了I-Con可以用于推导出原理性的去偏方法，以改进对比性表示学习者。

发布时间: 4/24/2025

查看原文