arXiv 论文列表

作者: Aske Plaat, Max van Duijn, Niki van Stein, Mike Preuss, Peter van der Putten, Kees Joost Batenburg

arXiv:2503.23037v1 宣告类型: 新摘要：在代理型大规模语言模型方面引起了极大的兴趣，这些模型作为代理进行行动。我们回顾了这一领域的 growing 体研究，并提供了研究议程。代理型 LLM 是（1）推理，（2）行动，（3）互动的 LLM。我们按照这三个类别组织文献。第一类的研究专注于推理、反思和检索，旨在提高决策质量；第二类的研究集中在行动模型、机器人和工具上，旨在实现能够作为有用助手的代理；第三类的研究集中在多代理系统上，旨在实现协作任务解决，并通过模拟互动来研究涌现的社会行为。我们发现，这些类别的工作相互受益：检索使工具使用成为可能，反思提高了多代理合作的效果，而推理对所有类别都有益。我们讨论了代理型 LLM 的应用，并为未来的研究提出了议程。重要的应用包括医疗诊断、物流和金融市场分析。同时，具有自我反思能力的代理相互扮演角色并互动，可以增强科学研究本身的过程。此外，代理型 LLM 可能为 LLM 用尽训练数据的问题提供解决方案：推断时的行为产生新的训练状态，使得 LLM 能够持续学习，而无需永远更大的数据集。我们注意到，LLM 辅助在现实世界中采取行动存在风险，但代理型 LLM 也可能造福社会。

发布时间: 4/1/2025

查看原文

FindTheFlaws: 注释错误以检测有缺陷的推理与可扩展监督研究

作者: Gabriel Recchia, Chatrik Singh Mangat, Issac Li, Gayatri Krishnakumar

arXiv:2503.22989v1 宣布类型: 新摘要: 随着AI模型处理越来越复杂的问题，确保可靠的人类监督变得越来越具有挑战性，因为验证解决方案的难度也在增加。这些应对AI监督规模化的策略包括辩论，其中两个代理通过结构化的对话帮助裁判评估声明；批判，其中模型识别提出的解决方案中的潜在缺陷；以及证明-验证游戏，其中有能力的“证明者”模型生成必须由较不能力的“验证者”验证的解决方案。对于这些方法和其他类似方法在应对难题方面的可扩展性评估可以从包括（1）长期专家验证的正确解决方案和（2）带有注释突出显示具体错误的长期有缺陷的解决方案的数据集中获益，但现有这样的数据集很少。为解决这一缺口，我们提出了FindTheFlaws，这是一个涵盖医学、数学、科学、编程和逻辑语言Lojban五个多样化数据集的集合。每个数据集包含问题和带有专家注释验证其正确性或识别推理中具体错误的长文本解决方案。我们评估了前沿模型的批判能力，并观察到各种性能范围，这些性能可以用于可扩展的监督实验：在特定数据集上表现较差的模型可以作为更能力强的模型的裁判/验证者。此外，对于某些任务/数据集组合，专家基准甚至超过了顶级模型的性能，使得它们在可扩展的监督实验中更具效益。

发布时间: 4/1/2025

查看原文

通过两阶段筛选识别预训练变压器中的多模态知识神经元

作者: Yugen Sato, Tomohiro Takagi

arXiv:2503.22941v1 通报类型: 新摘要：近年来，大型语言模型（LLMs）的发展导致了自然语言处理（NLP）和计算机视觉领域多模态LLMs（MLLMs）的出现。尽管这些模型允许集成视觉和语言理解，但它们也带来了内部处理不透明和生成幻觉和虚假信息的挑战。因此，需要一种方法来澄清MLLMs中的知识位置。在这项研究中，我们提出了一种方法，使用基于Transformer的MLLM MiniGPT-4来识别与特定知识相关的神经元。具体来说，我们通过两个阶段提取知识神经元：通过补全进行的激活差异筛选和通过GradCAM进行的梯度筛选。在使用MS COCO 2017数据集进行图像字幕生成任务、BLEU、ROUGE和BERTScore的定量评估以及通过激活热图进行的定性评估中，我们发现我们的方法能够实现比现有方法更高的知识定位精度。本研究促进了对MLLM中知识的可视化和解释，并展示了未来知识编辑和控制的潜力。

发布时间: 4/1/2025

查看原文

因子智能体：解除上下文学习与记忆的耦合以实现稳健的工具使用

作者: Nicholas Roth, Christopher Hidey, Lucas Spangher, William F. Arnold, Chang Ye, Nick Masiewicki, Jinoo Baek, Peter Grabowski, Eugene Ie

arXiv:2503.22931v1 Announce Type: 新摘要：在本文中，我们提出了一种新颖的事实推理智能体架构，旨在克服传统单一智能体系统在智能体AI中的局限性。我们的方法将智能体分解为两个专门的组件：（1）一个大型语言模型（LLM），作为高级计划者和上下文学习者，可以使用用户提示中原有的动态可用信息，（2）一个小型语言模型，作为工具格式和输出的记忆器。这种解耦解决了单体设计中普遍存在的问题，包括不正确的、缺失的和虚构的API字段，以及动态环境下的次优化规划。实证评估表明，我们的分解架构显著提高了规划准确性并增强了容错能力，同时阐明了上下文学习与静态记忆之间固有的权衡。这些发现表明，分解方法是开发更稳健和适应性强的智能体AI系统的有希望的途径。

发布时间: 4/1/2025

查看原文

基于LLM的代理模拟在母婴健康干预中的应用：不确定性估计与决策导向评估

作者: Sarah Martinson, Lingkai Kong, Cheol Woo Kim, Aparna Taneja, Milind Tambe

arXiv:2503.22719v1 宣告类型: 新摘要：基于代理的仿真对于建模复杂的人类行为至关重要，但传统方法需要大量的领域知识和数据集。在历史和反事实数据有限的数据稀缺医疗保健环境中，大型语言模型（LLMs）通过利用广泛的世界知识提供了有前途的替代方案。本研究探讨了一种基于LLM的母健康移动健康计划的仿真，预测受益人在通过自动消息（控制组）或现场代表（干预组）接收健康信息时的听从行为。由于在健康干预中的决策制定中不确定性量化至关重要，我们提出了一种基于多个样本的二元熵的LLM认知不确定性估计方法。通过集成方法增强模型的稳健性，与单个模型相比，提高了F1分数并提升了模型校准。除了直接评估之外，我们采取了以决策为中心的方法，演示了LLM预测如何在数据稀缺环境中指导干预可行性和试验实施方案。所提出的方法延伸至公共卫生、灾难响应以及其他需要在严重数据限制条件下快速评估干预措施的领域。所有为此工作使用的方法代码和提示均可在 https://github.com/sarahmart/LLM-ABS-ARMMAN-prediction 找到。

发布时间: 4/1/2025

查看原文

CodeScientist：基于代码的实验全流程半自动科学研究

作者: Peter Jansen, Oyvind Tafjord, Marissa Radensky, Pao Siangliulue, Tom Hope, Bhavana Dalvi Mishra, Bodhisattwa Prasad Majumder, Daniel S. Weld, Peter Clark

arXiv:2503.22708v1 新型自动科学发现系统公告摘要：尽管在自主科学研究（ASD，Automated Scientific Discovery）软件构件（例如，改进的机器学习算法）方面出现了浓厚的兴趣，当前的ASD系统面临两大关键限制：（1）它们主要探索现有代码库的变体或类似受约束的设计空间，（2）它们生成大量的研究构件（例如，自动产生的论文和代码），通常使用会议风格的论文评审进行评估，代码的评估相对有限。在本文中，我们引入了CodeScientist，这是一个新颖的ASD系统，将理念生成和实验构建视为一种基于研究文章和定义领域中常见操作的代码块（例如，提示语言模型）组合的遗传搜索形式。我们使用这一范式对广泛应用于代理和虚拟环境领域的机器生成理念进行了数百次自动化实验，系统返回了19项发现，其中6项被多方面的评估认定为至少具有一定稳健性且增量新颖，该评估不仅包括先前工作中通常使用的外部（会议风格）评审、代码评审，还包括复制尝试。此外，这些发现涵盖了新任务、新代理、新度量标准和新数据，表明从基准优化到更广泛发现的质的转变。

发布时间: 4/1/2025

查看原文

异常维度青睐于语言模型中的频繁词 Geschäftsman

作者: Iuri Macocco, Nora Graichen, Gemma Boleda, Marco Baroni

arXiv:2503.21718v2 提交类型: 重写-交叉摘要：我们研究了最后一层的异常维度，即对大多数输入显示出极端激活的维度。我们展示了异常维度在许多现代语言模型中出现，并追溯其功能回溯到总是预测高频词汇的启发式方法。我们进一步展示了当这种启发式方法在上下文中不合适时，模型可以通过赋予剩余维度相反的权重来阻止这一启发式方法，我们研究了哪些模型参数可以增强异常维度，并在训练过程中它们何时出现。我们得出结论，异常维度是许多不同模型发现的一种专门机制，用于实现有用的文字预测启发式方法。

发布时间: 3/31/2025

查看原文

LOCATEdit: 基于图拉普拉斯优化交叉注意的本地化文本引导图像编辑

作者: Achint Soni, Meet Soni, Sirisha Rambhatla

arXiv:2503.21541v2 更新类型: 替换-交叉摘要: 文本指导的图像编辑旨在根据自然语言指令修改图像中的特定区域，同时保持图像的一般结构和背景的真实性。现有方法使用来自扩散模型生成的交叉注意力图衍生的掩码来识别需要修改的目标区域。然而，由于交叉注意力机制侧重于语义相关性，它们难以保持图像的完整性。因此，这些方法往往缺乏空间一致性，导致编辑伪影和失真。在这项工作中，我们解决了这些问题，并引入了LOCATEdit，通过基于图的方法利用自我注意衍生的补丁关系来增强交叉注意力图，以确保图像区域间平滑、连贯的关注度，从而确保修改仅限于指定项目，同时保留周围的结构。LOCATEdit在PIE-Bench上一致地大幅优于现有基线，证明了其在各种编辑任务上的先进性能和有效性。代码可以在https://github.com/LOCATEdit/LOCATEdit/找到。

发布时间: 3/31/2025

查看原文

多尺度可逆神经网络用于宽范围可变率学习型图像压缩

作者: Hanyue Tu, Siqi Wu, Li Li, Wengang Zhou, Houqiang Li

arXiv:2503.21284v2 通报类型: replace-cross 摘要：基于自编码器的结构主导了最近的学习图像压缩方法。然而，自编码器固有的信息损失限制了其在高位率下的率失真性能，并限制了其位率适应的灵活性。在本文中，我们提出了一种基于可逆变换的变率图像压缩模型，以克服这些限制。具体地，我们设计了一种轻量级多尺度可逆神经网络，该网络将输入图像一一映射到多尺度潜在表示。为了提高压缩效率，我们设计了一种扩展增益单元的多尺度空域-通道上下文模型，用于从高到低估计潜在表示的熵。实验结果表明，所提出的方法在现有变率方法中性能最佳，且与近期的多模型方法保持竞争力。值得注意的是，我们的方法是第一个在使用单一模型的情况下，从非常广泛的位率范围内优于VVC的方法，尤其是在高位率时。源代码可从https://github.com/hytu99/MSINN-VRLIC 获取。

发布时间: 3/31/2025

查看原文

VinaBench：忠实且一致的视觉叙事基准

作者: Silin Gao, Sheryl Mathew, Li Mi, Sepideh Mamooler, Mengjie Zhao, Hiromi Wakaki, Yuki Mitsufuji, Syrielle Montariol, Antoine Bosselut

arXiv:2503.20871v2 构建类型: replace-cross 摘要：视觉叙事生成将文本叙述转化为一系列图像，以说明文本内容。然而，生成忠实于输入文本并在生成图像之间自洽的视觉叙事仍旧是一个开放的挑战，因为缺乏用于规划故事的知识约束。在本文中，我们提出了一种新的基准测试VinaBench，以解决这一挑战。我们的基准测试对视觉叙事样本下的常识和话语约束进行了注释，为学习视觉叙事的隐含策略提供了系统化的支撑。基于整合的叙事约束，我们进一步提出了一种新的评价指标，以密切评估生成的叙事图像的一致性和生成与输入文本叙述的对齐情况。在三种生成计算视觉模型上的结果表明，使用VinaBench的知识约束进行学习有效提高了生成视觉叙事的忠实性和连贯性。

发布时间: 3/31/2025

查看原文