arXiv 论文列表

作者: Yifan Zeng, Ojas Tendolkar, Raymond Baartmans, Qingyun Wu, Lizhong Chen, Huazheng Wang

使用大型语言模型 (LLM) 对篇章进行排序可以在现代信息检索 (IR) 系统中取得令人满意的性能。一种常见的排序方法是提示LLM进行成对或集合式比较，这通常依赖于排序算法。然而，基于排序的方法需要一致的比较才能正确地对篇章进行排序，而我们发现LLM经常违反这一要求。我们确定了基于LLM的成对比较中的两种内在不一致性：顺序不一致性，当切换篇章顺序时会导致冲突的结果；传递不一致性，会导致所有偏好对之间出现非传递性三元组。我们对这些不一致性的研究与理解和改进任何基于相对偏好的排序方案的稳定性相关。在本文中，我们提出了LLM-RankFusion，这是一个基于LLM的排序框架，它可以减轻这些不一致性并产生稳健的排序列表。LLM-RankFusion利用上下文学习 (ICL) 来演示与顺序无关的比较和校准，以估计两个篇章之间的潜在偏好概率，从而减轻顺序不一致性。然后，我们通过聚合来自多个排序器的排序结果来解决传递不一致性。在我们的实验中，我们通过实验证明，LLM-RankFusion可以显著减少不一致的比较结果，通过使最终排序列表更加稳健来提高排序质量。我们的代码可在\href{https://github.com/XHMY/LLM-RankFusion}{https://github.com/XHMY/LLM-RankFusion} 获取。

发布时间: 11/27/2024

查看原文

针对扩散模型的黑盒成员推理攻击

作者: Jingwei Li, Jing Dong, Tianxing He, Jingzhao Zhang

鉴于AI生成艺术日益流行及其相关的版权问题，识别某幅艺术作品是否被用于训练扩散模型是一个重要的研究课题。本研究从成员推断攻击（MIA）的角度来解决这个问题。我们首先指出了将现有MIA方法应用于专有扩散模型的局限性：需要访问内部U-Net。为了解决上述问题，我们引入了一种新颖的成员推断攻击方法，该方法仅使用图像到图像变化API，无需访问模型的内部U-Net。我们的方法基于这样的直觉：对于训练集中的图像，模型更容易获得无偏的噪声预测估计。通过对目标图像多次应用API，平均输出结果，并将结果与原始图像进行比较，我们的方法可以对样本是否属于训练集进行分类。我们使用DDIM和Stable Diffusion设置验证了我们的方法，并进一步将我们的方法和现有算法扩展到Diffusion Transformer架构。我们的实验结果始终优于以前的方法。

发布时间: 11/27/2024

查看原文

CHESS：用于高效SQL合成的上下文利用方法

作者: Shayan Talaei, Mohammadreza Pourreza, Yu-Chen Chang, Azalia Mirhoseini, Amin Saberi

将自然语言问题翻译成SQL查询（即文本到SQL）是一个长期存在的研究难题。有效的文本到SQL合成由于以下原因可能极具挑战性：（i）数据库目录（表及其列的描述）和数据库值的规模庞大；（ii）需要对大型数据库模式进行推理；（iii）需要确保生成的查询的功能有效性；以及（iv）需要处理自然语言问题的歧义性。我们引入了CHESS，这是一个基于大型语言模型（LLM）的多代理框架，用于高效且可扩展的SQL合成，它包含四个专门的代理，每个代理都针对上述挑战之一：信息检索器（IR）提取相关数据；模式选择器（SS）修剪大型模式；候选生成器（CG）生成高质量的候选并迭代地细化查询；以及单元测试器（UT）通过基于LLM的自然语言单元测试来验证查询。我们的框架提供可配置的功能，以适应各种部署约束，包括：1）支持工业规模的数据库：利用模式选择器代理，CHESS有效地将非常大的数据库模式缩小到可管理的子模式，从而将系统精度提高约2%，并将LLM令牌数量减少5倍。2）最先进的隐私保护性能：在使用开源模型的方法中，CHESS实现了最先进的性能，从而形成一个高性能、隐私保护的系统，适合工业部署。3）可扩展性与额外的计算预算：在计算预算较高的环境中，CHESS在BIRD测试集上实现了71.10%的准确率，与领先的专有方法相差2%以内，同时所需的LLM调用次数减少了约83%。

发布时间: 11/27/2024

查看原文

扩散-奖励对抗imitation学习

作者: Chun-Mao Lai, Hsiang-Chun Wang, Ping-Chun Hsieh, Yu-Chiang Frank Wang, Min-Hung Chen, Shao-Hua Sun

arXiv:2405.16194v4 通知类型: replace-cross 摘要：模仿学习旨在通过观察专家演示来学习策略，而不依赖于环境提供的奖励信号。生成对抗模仿学习（GAIL）将模仿学习形式化为对抗学习，采用生成器策略学习模仿专家行为，并使用判别器区分专家演示和代理轨迹。尽管取得了令人鼓舞的结果，但GAIL训练通常脆弱且不稳定。受近期扩散模型在生成模型中的主导地位启发，我们提出了一种扩散奖励对抗模仿学习（DRAIL），将扩散模型融入GAIL，旨在为策略学习提供更稳健和平滑的奖励。具体来说，我们提出了一种扩散判别分类器来构建增强的判别器，并设计基于分类器输出的扩散奖励以供策略学习。我们在导航、操作和运动中进行了广泛实验，验证了DRAIL相比于之前的模仿学习方法的有效性。此外，额外的实验结果展示了DRAIL的泛化能力和数据效率。GAIL和DRAIL学习到的奖励函数可视化表明，DRAIL能够产生更为稳健和平滑的奖励。项目页面：https://nturobotlearninglab.github.io/DRAIL/

发布时间: 11/27/2024

查看原文

LTOS：基于自适应交叉注意力融合的布局可控文本对象合成

作者: Xiaoran Zhao, Tianhao Wu, Yu Lai, Zhiliang Tian, Zhen Huang, Yahui Liu, Zejiang He, Dongsheng Li

可控文本到图像生成可在特定条件下合成图像中的视觉文本和物体，常用于表情符号和海报生成。视觉文本渲染和布局到图像生成的 task 在可控文本到图像生成中很流行。然而，这些 task 通常只关注单一模态的生成或渲染，导致为每个 task 设计的方法之间存在尚未弥合的差距。本文将文本渲染和布局到图像生成 task 整合到一个单一 task 中：布局可控文本对象合成 (LTOS) task，旨在基于预定义的对象布局和文本内容合成包含物体和视觉文本的图像。由于针对我们的 LTOS task 的兼容数据集并不容易获得，我们构建了一个布局感知的文本对象合成数据集，其中包含视觉文本和对象信息的精心对齐的标签。基于该数据集，我们提出了一种布局可控的文本对象自适应融合 (TOF) 框架，该框架生成具有清晰、易读的视觉文本和合理物体的图像。我们构建了一个视觉文本渲染模块来合成文本，并采用一个对象布局控制模块来生成物体，同时将这两个模块集成起来，以和谐地生成和整合图像中的文本内容和物体。为了更好地进行图像文本集成，我们提出了一种自适应交叉注意力融合模块，该模块有助于图像生成更多地关注重要的文本信息。在这个融合模块中，我们使用一个自适应可学习因子来灵活控制交叉注意力输出对图像生成的影响。实验结果表明，我们的方法在 LTOS、文本渲染和布局到图像 task 上优于现有技术，实现了和谐的视觉文本渲染和物体生成。

发布时间: 11/27/2024

查看原文

推荐模型如何放大流行度偏差？从谱视角的分析

作者: Siyi Lin, Chongming Gao, Jiawei Chen, Sheng Zhou, Binbin Hu, Yan Feng, Chun Chen, Can Wang

推荐系统 (RS) 常常受到流行度偏差的困扰。当在通常长尾分布的数据集上训练推荐模型时，模型不仅会继承这种偏差，而且往往会加剧这种偏差，导致推荐列表中流行项目的过度表示。本研究进行了全面的实证和理论分析，以揭示这种现象的根本原因，得出两个核心见解：1）项目流行度被记忆在推荐模型预测的评分矩阵的主谱中；2）维度坍缩现象放大了主谱的相对突出性，从而加剧了流行度偏差。基于这些见解，我们提出了一种新颖的去偏差策略，该策略利用谱范数正则化器来惩罚主奇异值的幅度。我们开发了一种高效的算法，通过利用评分矩阵的光谱特性来加快谱范数的计算。我们在七个真实世界的数据集和三个测试范例上进行了大量的实验，以验证所提出方法的优越性。

发布时间: 11/27/2024

查看原文

人机协作中的互补性：概念、来源与证据

作者: Patrick Hemmer, Max Schemmer, Niklas K\"uhl, Michael V\"ossing, Gerhard Satzger

人工智能(AI)有潜力显著增强人类在各个领域的绩效。理想情况下，人机协作应产生互补团队绩效(CTP)——这是他们任何一方都无法单独达到的绩效水平。然而，到目前为止，很少观察到CTP，这表明对互补性原理及其应用的理解不足。因此，我们发展了一个关于互补性的通用概念，并将其理论潜力以及在决策情境中的实际实现效果形式化。此外，我们确定信息和能力不对称是互补性的两个关键来源。最后，我们在两个实证研究中说明了每个来源对互补性潜力和效果的影响。我们的工作为研究人员提供了一个关于人机在决策中互补性的全面理论基础，并证明利用这些来源构成了一条设计有效人机协作（即实现CTP）的可行途径。

发布时间: 11/27/2024

查看原文

基于伪标签的半监督语义分割综述

作者: Lingyan Ran, Yali Li, Guoqiang Liang, Yanning Zhang

语义分割是计算机视觉领域一个重要且热门的研究方向，其关注于基于语义对图像中的像素进行分类。然而，监督式深度学习需要大量数据来训练模型，而逐像素标记图像的过程费时费力。这篇综述旨在首次全面、系统地概述半监督语义分割领域中伪标签方法的最新研究成果，我们从不同的角度对这些方法进行分类，并针对具体的应用领域介绍具体的方法。此外，我们还探讨了伪标签技术在医学和遥感图像分割中的应用。最后，我们也提出了一些可行的未来研究方向来应对现存的挑战。

发布时间: 11/27/2024

查看原文

UniTS：一种统一的多任务时间序列模型

作者: Shanghua Gao, Teddy Koker, Owen Queen, Thomas Hartvigsen, Theodoros Tsiligkaridis, Marinka Zitnik

尽管预训练的Transformer和重新编程的基于文本的大型语言模型（LLM）在时间序列任务上表现出色，但最佳架构在不同任务之间差异很大，大多数模型都狭隘地关注特定领域，例如时间序列预测。在一个模型中统一预测性和生成性时间序列任务仍然具有挑战性。我们引入了UniTS，这是一个统一的多任务时间序列模型，它利用任务标记将预测性和生成性任务集成到单个框架中。UniTS采用改进的Transformer块来捕获通用的时间序列表示，从而能够从异构的多领域预训练数据集（其特征在于多种动态模式、采样率和时间尺度）迁移到具有各种任务规范和数据领域的广泛下游数据集。在涵盖人类活动传感器、医疗保健、工程和金融的38个数据集上进行的测试表明，UniTS 的性能优于12个预测模型、20个分类模型、18个异常检测模型和16个插补模型，包括经过调整的基于文本的LLM。UniTS还在应用于新领域和新任务时展现出强大的少样本和提示能力。在单任务设置中，UniTS 优于具有竞争力的任务专用时间序列模型。代码和数据集可在https://github.com/mims-harvard/UniTS 获取。

发布时间: 11/27/2024

查看原文

基于无缝邻近性整合的平滑图对比学习

作者: Maysam Behmanesh, Maks Ovsjanikov

图对比学习 (GCL) 通过将节点对分类为正样本和负样本（使用通常依赖于在两个增强图中建立对应关系的选择过程）来对齐节点表示。传统的 GCL 方法在对比损失中统一地结合负样本，导致对负节点的处理相同，而不管它们与真实正样本的接近程度如何。在本文中，我们提出了一种平滑图对比学习模型 (SGCL)，它利用增强图的几何结构，在对比损失中注入与正/负样本对相关的邻近信息，从而显著地规范化学习过程。所提出的 SGCL 通过结合三种不同的平滑技术来调整对比损失中与节点对相关的惩罚，从而产生邻近感知的正样本和负样本。为了增强大型图的可扩展性，所提出的框架结合了一种图批量生成策略，该策略将给定的图划分为多个子图，从而促进在单独的批次中进行有效的训练。通过在各种基准（特别是大型基准）上进行广泛的无监督设置实验，我们证明了我们提出的框架优于最新的基线方法。

发布时间: 11/27/2024

查看原文