arXiv 论文列表

作者: Qianou Ma, Weirui Peng, Chenyang Yang, Hua Shen, Kenneth Koedinger, Tongshuang Wu

arXiv:2409.08775v3 宣告类型: replace-cross 摘要：提示大型语言模型完成复杂任务（例如构建旅行顾问聊天机器人）需要人类清晰地阐述定制化的要求（例如，“以摘要的形式开始回应”）。然而，现有的提示工程指导往往缺乏对要求表述的专门训练，反而倾向于强调日益自动化的策略（例如，添加角色扮演和“逐步思考”等技巧）。为解决这一问题，我们引入了要求导向的提示工程（ROPE）这一范式，该范式专注于在提示过程中引导人类生成清晰、完整的具体要求。我们通过一个评估和培训套件来实现ROPE，该套件提供基于大型语言模型生成反馈的刻意练习。在30名新手参与的随机对照试验中，ROPE相较于传统的提示工程训练显著表现更好（分别为20%和1%的提升），而自动提示优化无法弥合这一差距。此外，我们展示了输入要求质量与大型语言模型输出之间的直接相关性。我们的工作为更多最终用户能够构建复杂的大型语言模型应用打开了大门。

发布时间: 4/29/2025

查看原文

FreeRide: 开发管道并行性中的泡沫利用

arXiv:2409.06941v2 宣告类型: replace-cross 摘要：管道并行性中气泡的出现是一个内在的限制，可以占到大型语言模型（LLM）训练时间的40%以上，并且是导致LLM训练中GPU资源利用率低的主要原因之一。通过利用这些气泡进行GPU侧任务可以提高资源利用率并降低训练成本，但这也带来了一些挑战。首先，由于气泡是不连续的且形态各异，编程侧任务变得困难，并需要大量的工程努力。其次，侧任务可能会与管道训练竞争GPU资源，并导致显著的开销。为了解决这些挑战，我们提出了FreeRide，这是一个旨在利用管道并行性中的气泡进行侧任务的系统。FreeRide为程序员提供了接口以轻松实现侧任务，在管道训练过程中管理和处理气泡和侧任务，并通过控制侧任务对GPU资源的访问来减少开销。我们展示了FreeRide在训练LLM的同时可以完成模型训练、图分析和图像处理侧任务，在实现7.8%的平均成本节省的同时，开销不到1%。

发布时间: 4/29/2025

查看原文

迁移学习中的自适应样本聚合

作者: Steve Hanneke, Samory Kpotufe

arXiv:2408.16189v2 宣布类型: replace-cross 摘要：迁移学习旨在通过从目标分布中优化聚合样本，并结合相关来源分布中的样本，以改善目标风险。在过去的二十年中，提出了多种方法来解决这个问题，每种方法都由来源分布与目标分布之间不同数量度量驱动。本文提出的第一问题是是否存在能够同时适应这些不同度量的统一算法方法。我们展示了对于分类和回归任务中提出的一类广泛度量而言，这是确实存在的，因为它们恰好都上界限制了来源分布与目标分布风险之间的一个弱连续性度量，我们称其为弱迁移模量。这一更加统一的观点，首先让我们能够通过将问题归约到特定的置信集来识别能够同时适应这些不同度量的算法方法。其次，它还使我们能够更细致地理解在这些度量下迁移学习的统计极限，并且特别地揭示了一些比粗略观察下预期更快的学习速率的场景。然后，我们转向弱模量及其相应度量无法充分捕捉的情况：这些情况指的是，来源和目标数据的集合可以在单凭来源数据或目标数据本身的情况下显著提高目标性能。我们证明了一些常见的这类情况——例如，在具有虚假相关性的某些因果模型下可能出现的情况——可以通过所谓的强迁移模量来很好地描述，强迁移模量超越了弱迁移模量。最后，我们展示了强模量也具有适应性方法，这些方法在强模量未知的情况下能够实现接近最优的学习速率，并因此适用于更广泛的场景。

发布时间: 4/29/2025

查看原文

动态图建模的检索增强生成

作者: Yuxia Wu, Lizi Liao, Yuan Fang

arXiv:2408.14523v2 宣告类型: 替换交叉摘要：建模动态图，如社会网络、推荐系统和电子商务平台中发现的图，对于捕捉随着时间演变的关系和提供相关见解至关重要。传统的的方法主要依赖于具有时间成分的图神经网络或序列生成模型，这些模型通常专注于目标节点的历史上下文。这种局限性限制了适应动态图中新的和正在出现的模式的能力。为了解决这一挑战，我们提出了一个新颖的框架，名为基于检索增强生成的动态图建模（RAG4DyG），该框架通过结合更广泛的图结构中上下文和时间相关示例来增强动态图预测。我们的方法包括一个时间和上下文感知的对比学习模块，用于识别高质量的示范，以及一个图融合策略，有效集成这些示例与历史上下文。提出的框架设计用于既有效的推导场景，又有效的归纳场景，确保对未见过的节点和演化图结构的适应性。在多个真实世界数据集上的广泛实验表明，RAG4DyG 在提高动态图建模的预测准确性和适应性方面是有效的。代码和数据集可在 https://github.com/YuxiaWu/RAG4DyG 公开展示。

发布时间: 4/29/2025

查看原文

具有对象先验的分层注意力扩散网络用于视频变化检测

作者: Andrew Kiruluta, Eric Lundy, Andreas Lemos

arXiv:2408.10619v2 宣告类型: replace-cross 摘要：我们提出了一种统一的变化检测管道，该管道结合了实例级别的掩码、去噪扩散模型内的多尺度注意力以及每个像素的语义分类，并通过SSIM进行细化以匹配人类感知。首先通过Mask R-CNN隔离只有时间上新颖的对象，然后通过层次交叉注意力引导扩散更新到对象和全局上下文中，最后将每个像素分类为C种变化类型之一，我们的方法提供了详细且可解释的多类别地图。在合成基准和实际基准上，该方法在F1和IoU指标上优于传统的差异计算、Siamese CNN以及基于GAN的检测器，达到了10-25分的改进，标志着遥感变化检测的新突破。

发布时间: 4/29/2025

查看原文

W-RAG：弱监督密集检索在开放领域问答中的应用

作者: Jinming Nian, Zhiyuan Peng, Qifan Wang, Yi Fang

arXiv:2408.08444v2 通知类型: 替换-交叉摘要：在开放领域问答（OpenQA）等知识密集型任务中，大型语言模型（LLMs）常常难以生成事实性的答案，仅依靠其内部（参数化）的知识。为解决这一局限性，检索增强生成（RAG）系统通过从外部来源检索相关信息来增强LLMs，从而将检索器定位为至关重要的组件。尽管密集检索显示出最先进的性能，但由于缺乏准确证据，其训练存在挑战，很大程度上归因于人类注释的高成本。在本文中，我们提出了一种W-RAG方法，该方法从LLM的下游任务（如OpenQA）中吸取弱训练信号，并对检索器进行微调，以优先处理对任务最有益的段落。具体来说，我们通过评估LLM在给定每个段落的情况下生成正确答案的概率，重新对通过BM25检索到的前-k个段落进行排序。然后，最高评分的段落作为密集检索的正向微调示例。我们在四个公开可用的OpenQA数据集上进行了全面实验，以证明我们的方法在检索和OpenQA性能上都优于基线模型，并且达到了与使用人工标注数据进行微调的模型相当的结果。

发布时间: 4/29/2025

查看原文

带有统计保保证的从数据中学习时序逻辑谓词

作者: Emi Soroka, Rohan Sinha, Sanjay Lall

arXiv:2406.10449v3 通告类型: replace-cross 摘要: 时间逻辑规则在控制和机器人学中常被用于提供有序、易于人类理解的轨迹数据描述。这些规则在确保安全性、约束自主代理的运动规划以及数据分类等方面具有广泛的应用。然而，现有的从数据中学习时间逻辑谓词的方法并不能保证所得到的谓词的正确性。我们提出了一种新的方法，可以从数据中学习具有有限样本正确性保证的时间逻辑谓词。我们的方法利用表达式优化和齐性预测来学习在轻微统计假设下能够正确描述未来轨迹的谓词。我们提供了在模拟轨迹数据集上的实验结果，并进行了消融研究，以理解我们算法的各个组成部分如何影响其性能。

发布时间: 4/29/2025

查看原文

不可解问题检测：大型多模态模型的稳健理解评估

作者: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa

arXiv:2403.20331v3 宣布类型: replace-cross 摘要：本文介绍了一项新的任务，用于评估大型多模态模型（LMMs）的稳健理解能力，称为 **无法解答问题检测（UPD）**。多项选择题回答（MCQA）广泛用于评估LMMs的理解能力，但它并不确保LMMs真正理解答案。UPD 评估LMM在遇到MCQA中的无法解答问题时抑制回答的能力，验证模型是否真正理解答案。UPD 包含三个问题：缺席答案检测（AAD）、不兼容答案集检测（IASD）和不兼容视觉问题检测（IVQD），涵盖了如答案缺失或选择不兼容以及图像-问题不匹配等多种无法解答的情况。为了评估，我们引入了 MM-UPD 基准，这是一个评估不同能力维度上性能的基准。我们的实验显示，即使大多数LMM在现有基准上的表现不错，它们在MM-UPD 上仍然面临显著挑战，这揭示了一种信任度的新方面，这是现有基准所忽视的。详细分析显示，LMM面临着不同的瓶颈，逻辑思维和自我反思对于解决 LLM 能力瓶颈的LMM来说提高了其性能。我们希望我们的见解能够增强对更可靠LMM 的更广泛理解和开发。

发布时间: 4/29/2025

查看原文

自动黑盒提示工程用于个性化文本生成图像

作者: Yutong He, Alexander Robey, Naoki Murata, Yiding Jiang, Joshua Nathaniel Williams, George J. Pappas, Hamed Hassani, Yuki Mitsufuji, Ruslan Salakhutdinov, J. Zico Kolter

arXiv:2403.19103v3 Announce Type: replace-cross 摘要：提示工程是一种有效但耗时的方法，用于控制文本到图像（T2I）生成模型。其耗时性和复杂性激发了自动提示生成算法的发展。然而，这些方法经常难以在不同的T2I模型之间实现转移效果，需要访问底层模型的白箱访问，或生成非直观的提示。在本文中，我们引入了PRISM算法，该算法仅通过黑箱访问T2I模型，可以自动生成可转移和人类可解释的提示，从而有效地生成所需的概念。受大型语言模型（LLM）脱疆技术的启发，PRISM利用LLM的上下文学习能力，逐步改进基于参考图像构建的候选提示分布。我们的实验展示了PRISM在多个T2I模型（包括Stable Diffusion、DALL-E和Midjourney）生成对象、风格和图像的准确提示方面的灵活性和有效性。

发布时间: 4/29/2025

查看原文

跨模态的预训练变压器水印TokenMark

作者: Hengyuan Xu, Liyao Xiang, Borui Yang, Xingjun Ma, Siheng Chen, Baochun Li

arXiv:2403.05842v3 Announce Type: replace-cross 摘要：水印是模型所有权验证的关键工具。然而，现有的水印技术通常针对特定的数据模态和下游任务进行设计，而没有考虑到模型本身的内在架构特性。这种缺乏通用性和鲁棒性凸显了需要一种更通用的水印方法的需求。在此项工作中，我们研究了Transformer模型的特性，并提出了一种模态无关、鲁棒的预训练模型水印系统TokenMark，利用了置换等变性质。TokenMark通过在一组特别排列的数据样本上微调预训练模型来嵌入水印，从而生成一个包含两种不同权重集合的水印模型——一种用于正常功能，另一种用于水印提取，后者仅由排列输入触发。对最先进的预训练模型进行广泛的实验表明，TokenMark显著提高了模型水印的鲁棒性、效率和通用性，突显了它作为统一水印解决方案的潜力。

发布时间: 4/29/2025

查看原文