arXiv 论文列表

作者: Xue Tan, Hao Luan, Mingyu Luo, Xiaoyan Sun, Ping Chen, Jun Dai

arXiv:2411.18948v3 通告类型: replace-cross 摘要: 通过从相关知识数据库中检索信息来丰富LLMs的输入，检索增强生成（RAG）使它们能够生成更准确且上下文相关的响应。值得注意的是，这种知识数据库来源于公开渠道如维基百科，不可避免地引入了新的攻击面。RAG投毒涉及将恶意文本注入知识数据库，最终生成攻击者的靶响应（也称为中毒响应）。然而，目前检测此类投毒攻击的方法相对有限。我们旨在通过本文填补这一空白。特别地，我们引入了RevPRAG，一个灵活且自动化的检测管道，利用LLMs的激活来进行中毒响应检测。我们的调查揭示了LLMs在生成正确响应与中毒响应时激活模式的不同之处。在多个基准数据集和RAG架构上的实验结果显示，我们的方法能够实现98%的真实正率，同时保持假正率接近1%。

发布时间: 4/29/2025

查看原文

学习模态意识表示：自适应组间交互网络用于多模态MRI合成

作者: Tao Song, Yicheng Wu, Minhao Hu, Xiangde Luo, Linda Wei, Guotai Wang, Yi Guo, Feng Xu, Shaoting Zhang

arXiv:2411.14684v2 更新类型: 替换-跨境摘要: 多模态 MRI 成像合成旨在通过有效融合和映射来自可用 MRI 模态的子集来生成缺失模态的图像。大多数现有方法采用图像到图像的翻译范式，将多种模态视为输入通道。然而，这些方法往往由于在不同模态之间实现精确的特征级或语义级对齐的固有难度而产生次优结果。为了解决这些问题，我们提出了一种适应性组间交互网络 (AGI-Net)，该网络明确建模了多模态 MRI 成像合成中的跨模态和模内关系。具体而言，在特征通道首先按预定义的组进行分割之后，我们应用了适应性滚动机制到传统卷积核上，以更好地捕捉不同模态间的特征和语义对应关系。同时，我们引入了一个跨组注意力模块以实现不同组间的有效特征融合，从而增强网络的表示能力。我们在公开可用的 IXI 和 BraTS2023 数据集上验证了提出的 AGI-Net。实验结果表明，AGI-Net 在多模态 MRI 成像合成任务中达到了最先进的性能，证实了其模态感知交互设计的有效性。我们在以下链接发布了相关代码：https://github.com/zunzhumu/Adaptive-Group-wise-Interaction-Network-for-Multimodal-MRI-Synthesis.git。

发布时间: 4/29/2025

查看原文

SpatialDreamer：从单目输入自监督合成立体视频

作者: Zhen Lv, Yangqi Long, Congzhentao Huang, Cao Li, Chengfei Lv, Hao Ren, Dian Zheng

arXiv:2411.11934v2 宣告类型: replace-cross 摘要：从单目输入生成立体视频是空间计算和虚拟现实领域的艰巨任务。该任务的主要挑战在于缺乏高质量的配对立体视频进行训练，以及保持帧之间的空时一致性难度大。现有方法主要通过直接将新颖视角合成（NVS）技术应用于视频来解决这些问题，但这些方法存在无法有效表示动态场景以及需要大量训练数据的局限性。本文我们引入了一种通过视频扩散模型的新颖自监督立体视频合成范式，称之为SpatialDreamer，以直面这些挑战。首先，为了应对立体视频数据不足的问题，我们提出了一种基于深度的视频生成模块DVG，该模块采用正向-反向渲染机制生成具有几何和时间先验的配对视频。利用DVG生成的数据，我们提出了RefinerNet并设计了一种自监督合成框架，旨在促进高效的专用训练。更重要的是，我们设计了一种一致性控制模块，该模块包括一个立体偏差强度的度量和一个时空交互学习模块TIL，分别用于几何和时间一致性保障。我们对所提出的方法与各种基准方法进行了评估，结果表明其性能优越。

发布时间: 4/29/2025

查看原文

知识增强的多模态临床推理生成用于疾病诊断的小型语言模型

作者: Shuai Niu, Jing Ma, Hongzhan Lin, Liang Bai, Zhihua Wang, Yida Xu, Yunya Song, Xian Yang

arXiv:2411.07611v3 宣布类型: replace-cross 摘要：解释对于疾病诊断至关重要，但现有的模型在平衡预测准确性与人类可理解的理由之间存在困难。虽然大型语言模型（LLMs）提供了强大的推理能力，但其在临床中的应用受限于高计算成本和受限的多模态推理能力。小型语言模型（SLMs）虽然高效，但在整合多模态医疗数据方面缺乏高级推理能力。此外，LLMs 和 SLMs 缺乏领域知识以进行可信的推理。因此，我们提出了 ClinRaGen，通过利用 LLM 提取的推理能力来增强 SLMs，并通过理由蒸馏和领域知识注入提高可信的多模态理由生成能力。关键技术包括一个序列性理由蒸馏框架，使 SLMs 具备与 LLM 相媲美的多模态推理能力，以及一个知识增强的注意力机制，该机制将时间序列和文本数据的多模态表示统一到同一个编码空间中，使 SLMs 能够自然地进行解释，并结合领域知识以实现可靠的理由生成。在现实世界医疗数据集上的实验表明，ClinRaGen 在疾病诊断和理由生成方面均达到了最先进的性能，这表明结合 LLM 驱动的推理与知识增强对于提高可解释性具有有效性。

发布时间: 4/29/2025

查看原文

OmniEdit：通过专家监督构建通用图像编辑模型

作者: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen

arXiv:2411.07199v2 宣布类型: replace-cross 摘要：通过在自动合成或手动注释的图像编辑配对上训练扩散模型，指令引导的图像编辑方法已经展示了极大的潜力。然而，这些方法仍然远未达到实际生活应用的水平。我们识别出了三个主要的挑战导致了这一差距。首先，现有模型由于偏差的合成过程，其编辑技能有限。其次，这些方法使用的是包含大量噪声和伪影的数据集进行训练。这主要是由于应用了诸如CLIP得分等简单的过滤方法。第三，所有这些数据集都限制在单一的低分辨率和固定的纵横比，限制了其处理实际世界应用场景的灵活性。在本文中，我们提出了\omniedit，这是一种全能编辑器，能够无缝处理七个不同的图像编辑任务，支持任意纵横比。我们的贡献主要有四个方面：（1）\omniedit通过利用七个不同专家模型的监督来确保任务覆盖；（2）我们利用基于大型多模态模型（如GPT-4o）提供的得分的重要性抽样，而不是CLIP得分来提高数据质量；（3）我们提出了一种新的编辑架构——EditNet，大大提高了编辑的成功率；（4）我们提供了不同纵横比的图像，以确保我们的模型可以处理任何野外图像。我们已经准备了一个包含不同纵横比图像的测试集，并附带了多种多样的指令以覆盖所有任务。自动评估和人工评估均表明，\omniedit显著优于所有现有的模型。我们的代码、数据集和模型将可以在https://tiger-ai-lab.github.io/OmniEdit/ 获取。

发布时间: 4/29/2025

查看原文

Free-Mask：一种分割扩散模型与图像编辑集成的新范式

作者: Bo Gao, Jianhui Wang, Xinyuan Song, Yangfan He, Fangxu Xing, Tianyu Shi

arXiv:2411.01819v3 公告类型: replace-cross 摘要：当前的语义分割模型通常需要大量的手动标注数据，这一过程既费时又耗资源。相反，利用高级的文本到图像模型（如Midjourney和Stable Diffusion）已经成为了高效的方法，这些模型可以替代手动标注来自动生成合成数据。然而，之前的许多方法仅限于生成单实例图像，因为使用Stable Diffusion生成多个实例已经被证明是不稳定的。为了应对这一限制并扩展合成数据集的范围和多样性，我们提出了一种名为\textbf{Free-Mask}的框架，该框架结合了分割的扩散模型和高级图像编辑能力，通过文本到图像模型实现对图像中多个对象的集成。我们的方法能够创建高度逼真的数据集，这些数据集能够模仿现实世界的环境，并生成准确的分割掩码。这不仅减少了手动标注的劳动量，还确保了精确的掩码生成。实验结果表明，\textbf{Free-Mask}生成的合成数据能够使分割模型在零样本设置中优于使用真实数据训练的模型。特别地，在VOC 2012基准测试中，\textbf{Free-Mask}在未见过的类上实现了新的最先进结果。

发布时间: 4/29/2025

查看原文

WikiNER-fr-gold：一个金标准命名实体识别数据集

arXiv:2411.00030v2 宣布类型: 替换-交叉摘要: 在本文中，我们探讨了WikiNER语料库的质量，这是一个多语言命名实体识别语料库，并提供了一个统一版本。WikiNER的注解是在半监督方式下完成的，即没有后来的手动验证。这种语料库被称为银标准。在本文中，我们提出了一种修订版本的WikiNER-fr-gold，这是WikiNER的法语部分的修订版。我们的语料库包括原始法语子语料库的随机采样20%（26,818个句子，70万词）。我们首先总结了每个类别中包含的实体类型，以定义注解指南，然后我们对语料库进行了修订。最后，我们分析了在WikiNER-fr语料库中观察到的错误和不一致性，并讨论了未来工作的潜在方向。

发布时间: 4/29/2025

查看原文

异步RLHF：更快更高效的离策语言模型 reinforcement 学习

作者: Michael Noukhovitch, Shengyi Huang, Sophie Xhonneux, Arian Hosseini, Rishabh Agarwal, Aaron Courville

arXiv:2410.18252v3 声明类型: replace-cross 摘要：目前RLHF（人类反馈强化学习）的主要范式是在线和在线学习：同步从大型语言模型（LLM）策略生成内容，使用奖励模型进行标注，并利用反馈对LLM的输出进行学习。尽管这一范式表现良好，但它在计算上效率低下。受经典深度强化学习文献的启发，我们提出在RLHF中分离生成和学习。这使得可以异步生成新的样本的同时对旧样本进行训练，从而加快训练速度并实现更优的计算效率扩展。然而，异步训练依赖于一个尚未充分探索的领域：在线但离线的RLHF：在前几轮模型生成的样本上进行学习，而这些样本提供的训练信号较差。我们解决了这一领域的基本挑战：我们能容忍多少离策行为以加速学习但仍保持性能？在测试的多个RLHF算法中，发现在线DPO在离策数据上表现最稳健，稳健性随策略模型规模的增大而增加。我们进一步研究了异步RLHF的计算优化，但发现这些优化会带来性能代价，从而产生了一个权衡。我们通过训练LLaMA 3.1 8B，在指令跟随任务上比同步训练快约40%，同时最终性能相当，验证了异步RLHF的可扩展性。最后，我们将结果扩展到数学和推理领域，展示了异步RL可以将Rho 1B在GSM8k上进行微调，比同步训练快约70%，同时保持相同的准确性。

发布时间: 4/29/2025

查看原文

开放领域问题回答中的冲突背景处理

作者: Siyi Liu, Qiang Ning, Kishaloy Halder, Wei Xiao, Zheng Qi, Phu Mon Htut, Yi Zhang, Neha Anna John, Bonan Min, Yassine Benajiba, Dan Roth

arXiv:2410.12311v4 宣布类型：替换交叉摘要：开放域问答系统通常依赖于从大量文本（如网络）检索到的信息来回答问题。然而，这些文本集合中往往包含相互矛盾的信息，且不加选择地依赖这些信息可能导致不真实和不准确的答案。为了了解这一问题的严重性，我们收集了一个由人工注释的数据集，称为矛盾上下文问答（QACC）。我们发现，高达25%的开放域问题，在使用Google搜索检索时，可能会导致矛盾的上下文。我们使用数据集QACC评估并基准测试了三个强大的大型语言模型（LLMs），并展示了它们在有效处理带有矛盾信息的问题方面的局限性。为了探究人类如何处理矛盾的上下文，我们请求注释员为他们选择的正确答案提供解释。我们展示了通过将大型语言模型微调为解释它们的答案，可以为其训练过程引入更丰富的信息，从而引导它们处理矛盾的上下文的过程。

发布时间: 4/29/2025

查看原文

推测性知识精简：通过交错采样弥合师徒差距

作者: Wenda Xu, Rujun Han, Zifeng Wang, Long T. Le, Dhruv Madeka, Lei Li, William Yang Wang, Rishabh Agarwal, Chen-Yu Lee, Tomas Pfister

arXiv:2410.11325v3 宣告类型: replace-cross 摘要：近期的知识蒸馏（KD）进展使较小的学生模型能够接近较大教师模型的性能。然而，诸如监督KD和策略一致KD等流行方法在实际场景中受到教师-学生之间知识差距的不利影响。监督KD在使用静态数据集进行训练与对最终学生生成输出进行推理之间存在分布不匹配。相反，策略一致KD使用学生生成的样本进行训练，可能会导致教师不熟悉的低质量训练样本，从而导致不准确的教师反馈。为了解决这些限制，我们提出了推测式知识蒸馏（Speculative Knowledge Distillation, SKD），这是一种新的方法，通过学生和教师模型之间的合作，在学生推理时间分布的指导下实时生成高质量的训练数据，同时进行对齐。在SKD中，学生提出令牌，而教师根据自己的分布替换排名较低的令牌，从而以适应性的方式转移高质量的知识。我们对各种文本生成任务进行了评估，包括翻译、摘要、数学和指令跟随，并显示出SKD在不同领域、不同数据集大小和不同模型初始化策略下始终优于现有KD方法。

发布时间: 4/29/2025

查看原文