arXiv:2502.14902v1 类型: cross
摘要: 通过从外部数据库检索知识来提高大型语言模型(LLMs)响应质量的检索增强生成(RAG)方法通过检索外部数据库的知识来提高大型语言模型(LLMs)的响应质量。典型的RAG方法将文本数据库分割成片段,并组织成扁平结构以实现高效的搜索。为更好地捕获文本数据库中内在的依赖关系和结构化关系,研究人员提出了将文本信息组织成索引图的方法,即基于图的RAG。然而,我们认为当前基于图的RAG方法的局限性在于检索信息的冗余性,而非不足之处。此外,先前的方法使用扁平结构来组织提示中的检索信息,导致性能不佳。为了克服这些局限性,我们提出了PathRAG,它从索引图中检索关键关系路径,并将这些路径转换成文本形式以供LLMs提示。具体而言,PathRAG通过基于路径的提示有效地减少了冗余信息,同时指导LLMs生成更逻辑性和连贯性的响应。实验结果显示,PathRAG在六个数据集和五个评估维度上始终优于最先进的基线方法。代码可在以下链接获取:https://github.com/BUPT-GAMMA/PathRAG
arXiv:2502.14900v1 交叉发布类型: cross
摘要:语言学领域的一个持续争论是人工智能(AI)是否能够在语言相关的任务中有效地模拟人类的表现。尽管有关AI的各种语言能力的研究很多,但很少有人关注AI是如何定义通过不同单词形成过程产生的新词的。本研究通过考察人类和AI生成的答案在定义三种希腊新词类型(组合词、复合词和派生词)时的一致程度来填补这一空白。研究采用了一项在线实验,在该实验中,人类参与者选择了最合适的定义,而ChatGPT则收到了同样的提示。结果表明,对于组合词和派生词,人类和AI的回答有一致之处,但对复合词则没有一致性。然而,当考虑大多数人类的回答时,人类和AI在组合词和派生词上的回答有一致之处。这些发现突显了人类语言的复杂性以及AI在捕捉其细微差别时仍面临的挑战。特别是,它们表明需要将更先进的语义网络和上下文学习机制集成到AI模型中,以提高它们对复杂单词形成的解释能力,尤其是复合词。
arXiv:2502.14899v1 交叉类型: cross
摘要: 心脏磁共振成像 (CMR) 对诊断心脏病至关重要,但扫描时间过长仍然是一个重大问题。为解决这一问题,通过欠采样 k 空间引入了加速成像技术,这降低了最终图像的质量。近年来,深度学习的进步旨在加快扫描速度同时保持图像质量,但在适应各种采样模式和欠采样因子方面仍存在挑战。因此,构建一个通用模型是一个有前景的方向。在此工作中,我们引入了 UPCMR,这是一种针对 CMR 重建设计的通用展开模型。该模型结合了两种可学习的提示:欠采样特定提示和空间特定提示,并在每个块中与 UNet 结构集成。总体而言,通过使用 CMRxRecon2024 挑战集进行训练和验证,UPCMR 模型通过有效的训练策略在所有随机采样场景中显著提升了重建图像的质量,显示出在该任务中强大的适应性潜力。
arXiv:2502.14898v1 交叉发布类型:cross
摘要:患者长期以来一直在线寻求健康信息,现在越来越多地转向生成型AI来回答他们的健康相关查询。鉴于医疗领域的高风险,检索增强生成和引文定位等技术已被广泛推广为减少幻觉并提高AI生成响应准确性的方法,并被广泛应用于搜索引擎中。本文认为,即使当这些方法生成的内容在未出现幻觉的情况下严格准确地源自原始文档,它们也可能极具误导性。患者从AI生成的输出中得出的解释可能与他们阅读原始材料或咨询有知识的临床医生时得出的解释大不相同。通过在争议性诊断和程序安全性等主题上的大规模查询分析,我们用量化和定性的证据支持了当前系统导致的次优答案。特别是,我们强调了这些模型倾向于脱离上下文地陈述事实、省略关键相关来源以及强化患者的误解或偏见。我们提出了若干建议,例如引入交际语用学和增强对原始文档的理解,以有助于缓解这些问题,并超越医疗领域。
arXiv:2502.14896v1 类别: cross
摘要: 文本到图像(T2I)模型在从自然语言提示生成高质量、多样化的视觉内容方面取得了显著进展。然而,它们再现受版权保护的风格、敏感图像和有害内容的能力引发了严重的伦理和法律关切。概念擦除提供了对外部过滤的主动替代方案,通过修改T2I模型以防止生成不希望的内容。在这篇综述中,我们提供了概念擦除的结构化概览,根据其优化策略和修改的架构组件对现有方法进行了分类。我们将概念擦除方法分为参数更新的微调法、高效的封闭形式解法以及内容限制的推理时干预法,而无需修改权重。此外,我们探讨了规避擦除技术的对抗攻击,并讨论了新兴的防御措施。为了支持进一步的研究,我们汇集了关键的数据集、评估指标和基准,用于评估擦除效果和模型稳健性。这篇综述作为一种综合资源,提供了概念擦除不断演变的景观、挑战及未来方向的见解。
arXiv:2502.14894v1 横向公告类型
摘要:全氟和多氟烷基物质(PFAS),如不粘炊具中发现的化学物质,是不幸的持久性环境污染物,具有严重的健康风险。准确地绘制PFAS污染对于指导针对性的修复努力和保护公众和环境健康至关重要,但由于测试成本高和模拟其传播难度大,在大区域内检测仍然具有挑战性。在本文中,我们引入了FOCUS,这是一种具有标签噪声感知损失函数的地理性深度学习框架,用于预测大面积地区地表水中的PFAS污染。通过整合水文流数据、土地覆盖信息以及已知PFAS来源的临近性,我们的方法利用了空间和环境背景来提高预测准确性。我们通过广泛的消融研究和与基础方法(如稀疏分割)以及现有的科学方法(如克里金法和污染物传输模拟)的对比分析,评估了我们方法的性能。结果突显了我们框架在可扩展PFAS监测方面的潜力。
arXiv:2502.14893v1 Announce Type: cross
摘要:符号音乐有两种不同形式的表示:二维、直观的乐谱图像和一维、标准化的文本标注序列。虽然大型语言模型在音乐方面展示了极其出色的潜力,但当前的研究主要集中在单一模态符号序列文本上。现有的通用领域视觉语言模型在乐谱理解方面仍然缺乏能力。认识到这一差距,我们提出了NOTA,这是第一个大规模综合多模态乐谱数据集。该数据集包含1,019,237条记录,来自世界三个地区,并包含3个任务。基于该数据集,我们训练了NotaGPT,这是一种乐谱视觉大型语言模型。具体来说,我们包括了一个预对齐训练阶段,用于在音乐谱中表示的音乐符号与其ABC符号文本表示之间的跨模态对齐。随后的训练阶段专注于基础音乐信息提取,然后进行乐谱分析的训练。实验结果显示,我们的NotaGPT-7B在音乐理解方面取得了显著的改进,展示了NOTA和训练管道的有效性。我们的数据集已在https://huggingface.co/datasets/MYTH-Lab/NOTA-dataset 中开源。
arXiv:2502.14892v1 通知类型: 交叉
摘要: 在现实环境中的实时预测何时开始讲话仍然是对话代理的基本挑战。我们介绍了EgoSpeak,一种用于自 hardly 视频实时启动语音预测的新框架。通过从演讲者的第一人称视角建模对话,EgoSpeak 专门针对人类互动,其中对话代理必须持续观察其环境并动态决定何时讲话。我们通过整合四项关键能力弥合了简化实验设置与复杂自然对话之间的差距:(1)第一人称视角(2)RGB处理(3)在线处理(4)未剪辑视频处理。我们还介绍了来自 YouTube 的多样化的现实对话视频集合 YT-Conversation,作为大规模预训练的资源。在 EasyCom 和 Ego4D 上的实验表明,EgoSpeak 在实时性能上优于随机和基于静默的基线。我们的结果还突出了多模态输入和上下文长度在有效决定何时讲话时的重要性。
arXiv:2502.14891v1 Announce Type: cross
摘要:协同三维物体检测在自动驾驶领域具有重要意义,因为它能够通过多个代理之间的信息交换极大地增强每个个体代理的感知能力。然而,在实践中,由于姿态估计误差和时间延迟,代理之间的信息融合往往会导致具有空间和时间噪声的特征表示,从而导致检测错误。扩散模型自然具有将嘈杂样本去噪为理想数据的能力,这促使我们探索将扩散模型用于多代理系统之间的去噪问题。在本文中,我们提出了一种新颖的鲁棒协同感知框架 CoDiff,利用扩散模型的潜力来生成更全面和清晰的特征表示。据我们所知,这是首次将扩散模型应用于多代理协同感知。具体来说,我们将高维特征图投影到一个强大的预训练自编码器的潜在空间中。在这个空间中,个体代理信息作为条件来引导扩散模型的采样。该过程去噪粗糙的特征图,并逐步细化融合特征。在模拟和真实世界数据集上的实验研究表明,所提出的框架 CoDiff 在协同物体检测性能方面始终优于现有相关方法,并且在代理的姿态和延迟信息具有较高噪声级别时,展现出了高度期望的鲁棒性。
arXiv:2502.14889v1 交叉类型: cross
摘要: 识别跨模态图像-文本表示的任务正逐渐引起关注,特别是在CLIP(对比语言-图像预训练)等模型中,这些模型在学习图像和文本之间复杂关联方面表现出色。尽管取得了这些进展,但确保这些模型的可解释性对于它们在现实世界应用中的安全部署至关重要,如医疗保健领域。尽管针对单模态任务开发了大量可解释性方法,但这些方法往往难以有效转移至多模态上下文,这是因为表现结构上的固有差异。信息论中已有良好的瓶颈方法被应用于提高CLIP的可解释性。然而,这些方法通常受到强假设或固有随机性的限制。为了克服这些挑战,我们提出了信息瓶颈理论的缩小框架,这是一种全新的框架,从根本上重新定义了传统的瓶颈方法。该理论特别设计以满足当前的归因公理,提供了一种更 robust 和可靠的解决方案,以改进多模态模型的可解释性。在我们的实验中,与最先进的方法相比,我们方法在图像可解释性上平均提升了9%,在文本可解释性上平均提升了58.83%,并且在处理速度上提高了63.95%。我们的代码可在 https://github.com/LMBTough/NIB 公开获取。