arXiv 论文列表

作者: Qitao Qin, Yucong Luo, Yihang Lu, Zhibo Chu, Xianwei Meng

arXiv:2504.05312v1 类型: cross 摘要: 通过将外部知识库中的非参数化知识集成到模型中，检索增强生成（RAG）已成为一种有前途的方法，能够提高响应准确性，同时减轻事实错误和幻觉。该方法已在问答（QA）等任务中得到广泛应用。然而，现有的RAG方法在开放域QA任务中遇到了困难，因为它们独立执行检索操作，并直接将检索到的信息纳入生成，而没有维护总结性记忆或使用适应性检索策略，导致冗余信息和信息整合不足的问题。为了解决这些问题，我们提出了适用于开放域QA任务的自适应记忆优化增强RAG（Amber），它由基于代理的记忆更新器、自适应信息收集器和多粒度内容过滤器组成，共同在一个迭代的记忆更新范式中工作。具体来说，Amber通过多代理协作方式整合和优化语言模型的记忆，确保从先前的检索步骤中全面整合知识。它能够根据积累的知识动态调整检索查询，并决定何时停止检索，从而提高检索效率和效果。此外，它通过在多级上过滤无关内容来减少噪声，保留关键信息以提高整体模型性能。我们在几个开放域QA数据集上进行了广泛的实验，结果表明我们方法及其组件的优势和有效性。源代码可在以下网址获取：\footnote{https://anonymous.4open.science/r/Amber-B203/}。

发布时间: 4/9/2025

查看原文

IterQR：基于LLM的电子商务搜索系统查询重写迭代框架

作者: Shangyu Chen, Xinyu Jia, Yingfei Zhang, Shuai Zhang, Xiang Li, Wei Lin

arXiv:2504.05309v1 文章类型: cross 摘要：现代电子商务搜索系统的核心在于根据用户的查询匹配用户的意图和可用的选择，提供个性化的精准服务。然而，由于输入模棱两可和拼写错误，用户的查询可能不正确，导致搜索不准确。这些情况可以通过查询重写来解决：将查询修改为其他表示或扩展。然而，传统的查询重写依赖于静态的重写词汇表，该词汇表是手动建立的，同时缺乏与电子商务系统领域的专业知识和现实世界的通用知识的交互。在本文中，利用大规模语言模型（LLMs）生成文本内容的能力，我们提供了一个迭代框架来生成查询重写。该框架在每个迭代中包含三个阶段的过程：通过检索增强生成（RAG）和推理链（CoT）利用领域知识进行重写生成；自动收集正向重写信号更新；以及结合多任务目标对LLM进行后训练以生成新的重写。我们的工作（名为IterQR）提供了一个综合框架来生成具有领域/现实世界知识的查询重写。在每次迭代中，它会自动更新和自我修正重写。该方法已经部署在中国领先的美食配送平台美团单车的搜索系统中，为用户提供显著改进的服务。

发布时间: 4/9/2025

查看原文

迈向完美的回忆：通过AI驱动的元数据标准化提升FAIR性

作者: Sowmya S Sundaram, Mark A Musen

arXiv:2504.05307v1 类型:跨领域摘要:当前的元数据常常存在不完整、不一致和格式错误的问题，这阻碍了数据的有效重用和发现。我们利用GPT-4和元数据知识库（CEDAR）开发了一种方法，以标准化科学数据集中的元数据，确保符合社区标准。标准化过程涉及纠正和完善元数据条目，使其符合既定指南，显著提高了检索性能和召回率指标。该研究使用BioSample和GEO存储库来展示这些改进的影响，展示了标准化元数据如何导致更好的检索结果。平均召回率显著提高，从基线的BioSample和GEO原始数据集的17.65%上升到我们提出的元数据标准化流水线的62.87%。这一发现突显了将先进的AI模型与结构化元数据管理工具集成以实现更有效的可靠数据检索的变革性影响。

发布时间: 4/9/2025

查看原文

当推理遇到压缩：在复杂推理任务中评估压缩的大规模推理模型

作者: Nan Zhang, Yusen Zhang, Prasenjit Mitra, Rui Zhang

arXiv:2504.02010v1 类别: cross 摘要: 近期开源的大规模推理模型（LRMs）在复杂的推理任务上表现出强大的性能，但它们庞大的参数数量使得它们对个人来说代价高昂。大规模语言模型（LLMs）的压缩提供了降低计算资源成本的有效方案。然而，针对压缩LLMs在复杂推理任务上的表现，特别是针对LRMs的研究还很缺乏。大多数关于量化和剪枝的工作集中在保持语言模型性能上，而现有的精简工作并没有综合基准测试基于推理难度或压缩对知识和推理的影响的学生模型。在本文中，我们使用量化、精简和剪枝方法，在四种不同的推理数据集（AIME 2024、FOLIO、时序的大规模基准hard部分和MuSiQue）上基准测试了压缩的DeepSeek-R1模型，这些数据集涵盖了从数学到多跳推理的不同难度。我们基准测试了采用了动态量化方法的2.51比特、1.73比特和1.58比特的R1模型。我们还基准测试了基于LLaMA或Qwen的精简R1模型，并在它们上运行SparseGPT以获得各种稀疏程度。通过对压缩LRMs的性能和行为的研究，我们报告了它们的性能分数和测试时计算（每个问题所花费的令牌数）。值得注意的是，使用MuSiQue时，我们发现参数数量对LRMs的知识记忆影响远大于对其推理能力的影响，这可以指导压缩技术的选择。通过我们的测试时计算的实证分析，我们发现，较短的模型输出通常在R1及其压缩变体的各种基准测试中表现更佳，这突显了更精简的推理链的需求。

发布时间: 4/9/2025

查看原文

FEABench：评估语言模型在多物理推理能力上的表现

作者: Nayantara Mudur, Hao Cui, Subhashini Venugopalan, Paul Raccuglia, Michael P. Brenner, Peter Norgaard

arXiv:2504.06260v1 支撑类型: 新摘要: 在工程和科学中，建立精确的现实世界模拟并调用数值求解器来回答定量问题是一项基本要求。我们介绍了FEABench，一个基准测试，用于评估大型语言模型（LLMs）和LLM代理使用有限元分析（FEA）模拟和解决物理、数学和工程问题的能力。我们提出了一种全面的评估方案，以研究LLMs通过推理自然语言问题描述并在COMSOL Multiphysics™软件上操作来端到端解决这些问题的能力，其中COMSOL Multiphysics™是一款FEA软件。此外，我们设计了一个语言模型代理，该代理能够通过应用程序编程接口（API）与软件交互，检查其输出，并使用工具在多次迭代中改进其解决方案。我们表现最好的策略有88%的时间生成可执行的API调用。能够成功与FEA软件交互并解决问题的LLMs，如我们的基准测试中的问题，将推动工程自动化领域的前沿。获得这种能力将增强LLMs的推理能力，结合数值求解器的精确性，并促进能够解决现实世界复杂问题的自主系统的开发。代码可在https://github.com/google/feabench获取。

发布时间: 4/9/2025

查看原文

TxGemma：用于治疗的高效自主LLM

作者: Eric Wang, Samuel Schmidgall, Paul F. Jaeger, Fan Zhang, Rory Pilgrim, Yossi Matias, Joelle Barral, David Fleet, Shekoofeh Azizi

arXiv:2504.06196v1 宣布类型: 新闻摘要: 靶向药物开发是一个成本高且风险大的努力，经常受到高失败率的影响。为了解决这个问题，我们引入了TxGemma，这是一个高效的通用大型语言模型（LLMs）套件，能够进行治疗性质预测以及互动推理和解释性。与特定任务的模型不同，TxGemma能够从多种来源中综合信息，使其能够在整个治疗开发流程中得到广泛应用。该套件包括20亿、90亿和270亿参数的模型，这些模型是从Gemma-2在全面的小分子、蛋白质、核酸、疾病和细胞系数据集上微调而来的。在66个治疗开发任务中，TxGemma在64个任务上（其中45个任务表现出色）优于或达到了最先进的通用模型的性能，在50个任务上（其中26个任务表现出色）优于最先进的专业模型。微调TxGemma模型用于治疗下游任务，如临床试验不良事件预测，所需的训练数据量少于微调基础LLMs，使TxGemma适用于数据有限的应用。除了这些预测能力之外，TxGemma还配备了衔接通用LLM和专门的性质预测器之间的对话模型。这些模型使科学家能够以自然语言进行互动、基于分子结构提供机理上的推理，并参与科学讨论。在此基础上，我们进一步引入了Agentic-Tx，这是一种由Gemini 2.5驱动的通用治疗指导系统，能够进行推理、采取行动、管理各种工作流程并获取外部领域知识。Agentic-Tx在Humanity's Last Exam基准测试（化学与生物学）中超过了之前的领先模型，相对于o3-mini（高）有52.3%的相对改进，在GPQA（化学）中相对于o3-mini（高）有26.7%的改进，在ChemBench-Preference中有6.3%的改进，在ChemBench-Mini中有2.4%的改进。

发布时间: 4/9/2025

查看原文

SkillFlow：通过适应AI代理通信实现的技能和代码转移

作者: Pagkratios Tagkopoulos, Fangzhou Li, Ilias Tagkopoulos

arXiv:2504.06188v1 宣称类型: 新的摘要: AI 前端是能够根据预定义的编程执行特定任务的自主系统。在这里，我们介绍了一种模块化、技术无关的框架——SkillFlow，它允许前端通过从环境或其他前端获取新技能来以即兴的方式扩展其功能。我们提出了一种理论模型，探讨了在什么条件下这种框架会带来益处，然后探索了SkillFlow在真实世界应用中的加速任务完成能力和降低累积成本的能力，具体应用为为日历事件调度前端。我们展示了在几次迭代之后，SkillFlow带来了显著的时间和成本改善（24.8%，p值=$6.4\times10^{-3}$），尤其是在通信成本高昂的情况下。最后，我们将这种框架与研究得很好的生物系统进行了类比，并将其与活性基因转移进行了比较，这是一种在新环境中的适应和进化的重要过程。

发布时间: 4/9/2025

查看原文

分散化的AI记忆：SHIMI，一种用于可扩展代理推理的语义分级记忆索引

作者: Tooraj Helmi

arXiv:2504.06135v1 类型: 新闻摘要: 回忆增强生成(RAG)和基于向量的搜索已成为AI系统中记忆的基石工具，但在抽象能力、可扩展性和语义精度方面还存在局限，尤其是在去中心化环境中尤为明显。我们提出了SHIMI（语义层次记忆索引），这是一种统一的架构，将知识建模为动态结构的概念层次，使智能体能够基于意义而非表面相似性来检索信息。SHIMI将记忆组织成分层的语义节点，并支持从抽象意图到具体实体的自顶向下的遍历，提供更精确和可解释的检索。关键的是，SHIMI旨在适用于去中心化的生态系统，在这种生态系统中，智能体维护本地记忆树，并通过网络异步同步它们。我们引入了一个轻量级的同步协议，利用Merkle-DAG摘要、布隆过滤器和CRDT样式的冲突解决来实现部分同步，同时最大限度减少开销。通过基准实验和涉及去中心化智能体协作的用例，我们展示了SHIMI在检索准确性、语义保真度和可扩展性方面的优势，将它定位为去中心化认知系统的核心基础设施层。

发布时间: 4/9/2025

查看原文

Leanabell-Prover：正式推理中的后训练缩放

作者: Jingyuan Zhang, Qi Wang, Xingguang Ji, Yahui Liu, Yang Yue, Fuzheng Zhang, Di Zhang, Guorui Zhou, Kun Gai

arXiv:2504.06122v1 宣传类型: 新摘要: 通过大型语言模型（LLM）推进自动化定理证明（ATP）的最新进展突显了Lean 4代码形式推理的潜力。然而，ATP尚未通过Open AI的O1/O3和Deepseek的R1所展示的后训练扩展得到革命性的改变。在这项工作中，我们研究了整个后训练的ATP，旨在使其与自然语言推理模型的突破相一致。首先，我们使用由大量命题-证明对以及旨在模拟人类推理和假说改进的认知行为的附加数据构成的混合数据集，对当前的ATP模型进行持续训练。接着，我们探索使用Lean 4编译器返回的结果奖励的强化学习。通过我们设计的持续训练和强化学习过程，我们成功地改进了现有的形式证明器，包括DeepSeek-Prover-v1.5和Goedel-Prover，实现了整个证明生成领域的最先进性能。例如，在MiniF2F上，我们达到了59.8%的通过率（pass@32）。这是一个持续的项目，我们将逐步更新我们的发现，发布我们的数据和训练细节。

发布时间: 4/9/2025

查看原文

基于信息论的奖励分解方法以实现可泛化的RLHF

作者: Liyuan Mao, Haoran Xu, Amy Zhang, Weinan Zhang, Chenjia Bai

arXiv:2504.06020v1 宣告类型: 新摘要：在从人类反馈中进行强化学习(REINFORCEMENT LEARNING FROM HUMAN FEEDBACK, RLHF)中，可推广的奖励模型是至关重要的，因为它能够正确评估未见过的提示-响应对。然而，现有的奖励模型缺乏这种能力，因为它们通常通过增加选择响应和被拒绝响应之间的奖励差距来进行训练，而忽视了响应所依赖的提示。因此，当经过训练的奖励模型评估那些未处于数据分布中的提示-响应对时，忽略提示的影响可能会导致奖励模型的泛化能力较差。为了应对这一问题，我们将奖励值分解为两个独立的组件：无提示奖励和提示相关奖励。无提示奖励代表仅由响应确定的评估，而提示相关奖励则反映了由提示和响应共同引起的奖励。我们从信息论的角度提取了这两个组件，无需额外的模型。随后，我们提出了一种新的奖励学习算法，该算法根据数据样本的无提示奖励值优先处理数据样本。通过玩具示例，我们展示了提取的无提示和提示相关奖励有效地表征了奖励模型的两个部分。进一步的标准评估显示，我们的方法提高了奖励模型的对齐性能和泛化能力。

发布时间: 4/9/2025

查看原文