arXiv 论文列表

作者: Yixing Fan, Qiang Yan, Wenshan Wang, Jiafeng Guo, Ruqing Zhang, Xueqi Cheng

arXiv:2502.13719v1 交叉公告类型: cross 摘要：RAG（ Retrieval-Augmented Generation）已成为一种关键的技术，用于增强大型模型的实时和领域特定知识。尽管已经提出了众多改进和开源工具来提高RAG框架的准确性，但相对较少关注生成结果的可信度。为填补这一空白，我们提出了TrustRAG，这是一种新颖的框架，从索引、检索和生成三个角度增强RAG。具体而言，在索引阶段，我们提出了一种语义增强的分块策略，结合层次索引来补充每个分块的相关信息，确保语义完备。在检索阶段，我们引入了一种基于实用性的筛选机制来识别高质量的信息，支持答案生成并减少输入长度。在生成阶段，我们提出了细粒度的引用增强，该方法检测响应中的意见句并推断句子级的引用关系，从而提高引用准确性。我们开源了TrustRAG框架，并提供了一个专为节选问题回答任务设计的演示工作室（https://huggingface.co/spaces/golaxy/TrustRAG）。基于这些，我们旨在帮助研究人员：1）系统地增强RAG系统的可信度；2）开发具有更可靠输出的自己的RAG系统。

发布时间: 2/20/2025

查看原文

MoM：混合记忆的线性序列 modeling

作者: Jusen Du, Weigao Sun, Disen Lan, Jiaxi Hu, Yu Cheng

arXiv:2502.13685v1 Announce Type: cross 摘要：线性序列建模方法，如线性注意力、状态空间建模和线性RNN，通过降低训练和推理的复杂性提供了显著的效率改进。然而，这些方法通常将整个输入序列压缩到一个固定大小的内存状态中，这会导致在需要大量回忆的下游任务上表现不佳。受神经科学的启发，特别是大脑在维护稳健长期记忆的同时避免“记忆干扰”的能力，我们提出了一种名为Mixture-of-Memories（MoM）的新型架构。MoM利用多个独立的内存状态，通过路由器网络将输入标记导向特定的内存状态。这种方法显著增强了整体内存容量，同时最大限度地减少了内存干扰。因此，MoM在需要大量回忆的任务上表现优异，超越了现有的线性序列建模技术。尽管包含了多个内存状态，计算每个内存状态的复杂度依然保持线性，使MoM在训练期间保留了线性复杂度的优势，而在推理期间保持恒定复杂度。我们的实验结果显示，MoM在下游语言任务中，特别是在需要大量回忆的任务上，显著优于现有的线性序列模型，并且其性能甚至可以匹种植天然语言处理模型（Transformer模型）。代码在https://github.com/OpenSparseLLMs/MoM 和 https://github.com/OpenSparseLLMs/Linear-MoE中发布。

发布时间: 2/20/2025

查看原文

基于LLM的Docker环境配置代理agents

作者: Ruida Hu, Chao Peng, Xinchen Wang, Cuiyun Gao

arXiv:2502.13681v1 Announce Type: cross 摘要：环境配置是软件开发中的一个关键但耗时的步骤，特别是在处理不熟悉的代码仓库时更为复杂。虽然大规模语言模型（LLMs）展示了完成软件工程任务的潜力，但当前的环境配置方法往往依赖于手动努力或脆弱的脚本，导致效率低下和不可靠的结果。我们介绍了Repo2Run，这是第一个基于LLM的代理，旨在完全自动化环境配置，并为任意Python仓库生成可执行的Dockerfile。我们解决的两个主要挑战是：(1) 让LLM代理能够在隔离的Docker容器中配置环境，以及(2) 确保配置过程的成功记录，并且准确地转移到Dockerfile中，避免错误。为了实现这一目标，我们提出了原子配置合成，其特点是一个双重环境架构（内部和外部环境），具有回滚机制以防止因失败命令而导致的环境“污染”，保证原子执行（全部执行或完全不执行），以及一个Dockerfile生成器，将成功的配置步骤转换为可运行的Dockerfile。在我们提出的包含420个带有单元测试的近期Python仓库基准测试中，Repo2Run实现了86.0%的成功率，优于最佳基线63.9%。

发布时间: 2/20/2025

查看原文

PeerQA：来自同行评审的科学问答数据集

作者: Tim Baumg\"artner, Ted Briscoe, Iryna Gurevych

arXiv:2502.13668v1 交叉类型: cross 摘要: 我们介绍了PeerQA,一个真实世界的、科学的、文档级别的问答数据集。PeerQA的问题来源于同行评审，其中包含审稿人在全面检查科学文章时提出的问题。这些问题由每篇文章的原作者标注了答案。该数据集包含来自208篇学术文章的579个问答对，主要来自机器学习和自然语言处理领域，还包括来自地质科学和公共卫生等其他科学社区的子集。PeerQA支持开发实用问答系统的三个关键任务：证据检索、无法回答的问题分类以及答案生成。我们对收集的数据集进行了详细分析，并进行了实验以建立所有三个任务的基线系统。我们的实验和分析揭示了在文档级别检索中去语境化的需求，在此我们发现即使是简单的去语境化方法也能够在各种架构中一致地提高检索性能。在答案生成方面，PeerQA为长上下文建模提供了具有挑战性的基准，因为这些文章的平均大小为12k个标记。我们的代码和数据可在https://github.com/UKPLab/peerqa获得。

发布时间: 2/20/2025

查看原文

基于分类器的投机解码中树结构构建方法

作者: Feiye Huo, Jianchao Tan, Kefeng Zhang, Xunliang Cai, Shengli Sun

arXiv:2502.13652v1 Announce Type: 跨领域摘要：大型语言模型（LLMs）规模的不断增长加剧了推理延迟和计算成本。推测性解码方法旨在缓解这些问题，但经常在构建令牌树和验证候选令牌方面面临效率低下。现有的策略，包括链模式、静态树和动态树方法，在准备用于验证的候选令牌树方面存在局限性。我们提出了一种名为C2T的新型方法，该方法采用轻量级分类器动态生成和修剪令牌树。我们的分类器会考虑到除了常用联合概率之外的其他特征变量，以预测每个草稿令牌的信任分数，从而确定它是否是用于验证的候选令牌。该方法在多个基准测试中超过了最先进的（SOTA）方法，如EAGLE-2，通过减少候选令牌总数25%，同时保持甚至提高了接受长度。

发布时间: 2/20/2025

查看原文

整合逆向建模与正向建模以处理传感器网络中的稀疏时间数据

作者: Julian Vexler, Bj\"orn Vieten, Martin Nelke, Stefan Kramer

arXiv:2502.13638v1 交叉类型摘要：我们提出了一种称为CavePerception的框架，该框架用于分析来自传感器网络的稀疏数据，结合了逆向建模和正向建模的元素。通过将机器学习与物理建模结合在一个假设空间中，我们旨在改进稀疏、有噪声且可能不完整的传感器数据的可解释性。该框架假设来自一个二维传感器网络的数据，该网络以图结构布局，用于检测某些对象并识别特定的运动模式。此类传感器的例子是磁力计。根据对对象及其对传感器影响的了解，可以开发一种数据生成器，生成模拟对象在传感器场内移动的数据。该框架使用模拟数据来推断传感器网络中对象的行为。该方法在真实世界数据上进行了实验测试，其中使用磁力计在机场检测和识别航空器的运动。实验展示了将逆向建模与正向建模结合的价值，使智能系统能够更好地理解和预测复杂的、由传感器驱动的事件。

发布时间: 2/20/2025

查看原文

概念层：通过大规模语言模型概念化增强可解释性和可干预性

作者: Or Raphael Bidusa, Shaul Markovitch

arXiv:2502.13632v1 宣告类型: cross 摘要：大型语言模型（LLMs）的不透明性质导致了大量旨在增强其可解释性的研究努力，主要通过事后方法实现。更近期的集成中方法，如概念瓶颈模型（CBMs），通过引入明确的概念表示，提供了可解释性和干预性。然而，这些方法存在一些关键限制，包括对标记的概念数据集的依赖以及会对现有系统管道重新集成造成挑战的显著架构修改。在本文中，我们提出了一种新的方法，通过将概念层（CLs）集成到现有模型的架构中，来在现有模型中引入可解释性和干预性。我们的方法将模型的内部向量表示投影到一个概念性的、可解释的向量空间中，再进行重构并反馈给模型。此外，我们通过算法搜索领域本体来消除对人工选定的概念集的需求，可以为特定任务或通用任务选择一组概念。我们在多个任务上评估了CLs，证明它们能够保持原始模型的性能和一致性，同时也允许进行有意义的干预。此外，我们展示了概念干预接口的样例，允许用户在推理过程中动态调整模型行为，例如减轻推理中的偏差。

发布时间: 2/20/2025

查看原文

REFIND: 在大型语言模型中检索增强的 FACTUALITY 幻觉检测

作者: DongGeon Lee, Hwanjo Yu

arXiv:2502.13622v1 声明类型：交叉摘要：大型语言模型（LLM）输出中的幻觉严重限制了它们在知识密集型任务，如问答中的可靠性。为了解决这一挑战，我们引入了REFIND（Retrieval-augmented Factuality hallucINation Detection，检索增强事实性幻觉检测）框架，该框架通过直接利用检索到的文档来检测LLM输出中的幻觉片段。作为REFIND的一部分，我们提出了上下文敏感度比（CSR，Context Sensitivity Ratio），这是一种新型度量方法，用于量化LLM输出对检索到的证据的敏感性。这种创新的方法使REFIND能够高效且准确地检测幻觉，使其区别于现有的方法。在评估中，REFIND在九种语言下均表现出色，包括低资源环境，并且显著优于基线模型，取得了更高的IOU评分，用于识别幻觉片段。这项工作突显了量化上下文敏感性对于幻觉检测的有效性，从而为多种语言下的更可靠和可信赖的LLM应用铺平了道路。

发布时间: 2/20/2025

查看原文

使用概率超性质的去中心化规划

作者: Francesco Pontiggia, Filip Mac\'ak, Roman Andriushchenko, Michele Chiari, Milan \v{C}e\v{s}ka

arXiv:2502.13621v1 类型: cross 摘要：在随机动态下的多智能体规划通常使用非中心化的部分可观测量马尔可夫决策过程（MDP）进行形式化，并使用可达性或期望回报规范。在本文中，我们提出了一种不同的方法：我们使用一个描述单个智能体在环境中的操作的MDP，并使用概率超性质来捕捉一组在环境中运作的非中心化智能体的期望时间目标。我们扩展了现有的概率超性质模型检测方法，以处理关联不同智能体路径的时间公式，因此需要多个MDP之间的自组合。通过几个案例研究，我们证明了我们的方法提供了一个灵活且富有表现力的框架，可以增强现有的规划技术的规范能力。此外，我们建立了概率超性质的一个子类与特定类型Dec-MDP规划之间的一个紧密联系，这两种情况我们均证明了不可判定性。这为使用现有的分散规划工具进行概率超性质验证奠定了基础。

发布时间: 2/20/2025

查看原文

复杂本体匹配与大规模语言模型嵌入

作者: Guilherme Sousa, Rinaldo Lima, Cassia Trojahn

arXiv:2502.13619v1 交叉公告类型摘要：本论文涉及领域本体，更广泛地说，知识图谱匹配是一个挑战性任务，其中的表达性尚未得到充分解决。尽管嵌入和语言模型在这个任务中的使用越来越普遍，但用于生成表达性对应关系的方法仍未充分利用这些模型，尤其是在大型语言模型（LLMs）方面。本文提出将LLMs集成到基于对齐需求和ABox关系发现的方法中，以生成表达性对应关系。对应关系的生成是通过匹配实例子图类似的周边环境来实现的。将LLMs集成进来导致了不同的架构修改，包括标签相似性、子图匹配和实体匹配。比较了词嵌入、句子嵌入和基于LLM的嵌入。结果表明，将LLMs集成进来超过了所有其他模型，使该方法的基本版本在F-测量值上提高了45%。

发布时间: 2/20/2025

查看原文