arXiv 论文列表

CTD4 -- 一种基于卡尔曼滤波多批评者的连续分布(actor-critic)代理模型

作者: David Valencia, Henry Williams, Yuning Xing, Trevor Gee, Bruce A MacDonald, Minas Liarokapis

arXiv:2405.02576v3 Announce Type: replace-cross 摘要：类别分布强化学习（CDRL）在学习复杂任务方面比传统强化学习（RL）方法具有更高的样本效率。然而，CDRL的实际应用受到了复杂的投影步骤、详细的参数调整以及领域知识的困扰。本文通过介绍一种专为连续动作空间设计的先验连续分布自由RL算法，解决了这些挑战。所提出的算法简化了分布RL的实现，采用了一个actor-critic架构，其中critic输出连续概率分布。此外，我们还提出了一种通过卡尔曼融合机制融合多个critic的方法，以减轻过度估计偏差。通过一系列实验，我们验证了所提出的方法为执行复杂连续控制任务提供了高效的样本解决方案。

发布时间: 2/7/2025

查看原文

超越Chain-of-Thought：关于Chain-of-X范式综述（针对LLMs）

作者: Yu Xia, Rui Wang, Xu Liu, Mingyan Li, Tong Yu, Xiang Chen, Julian McAuley, Shuai Li

arXiv:2404.15676v3 宣告类型: replace-cross 摘要：Chain-of-Thought (CoT) 是一个广泛采用的提示方法，激发了大型语言模型（LLMs） impressive 的推理能力。受 CoT 顺序思维结构的启发，已经开发出多种 Chain-of-X (CoX) 方法，以解决跨不同领域和任务中涉及 LLMs 的各种挑战。在本文中，我们对不同上下文中的 Chain-of-X 方法对 LLMs 进行了全面回顾。具体而言，我们按照节点分类，即 CoX 中的 X，以及应用任务对其进行分类。我们还讨论了现有 CoX 方法的发现及其意义，以及未来的研究方向。我们的调查旨在为希望将 CoT 的思路应用于更广泛场景的研究人员提供详细和最新的资源。

发布时间: 2/7/2025

查看原文

梯度高斯牛顿在线认证遗忘

作者: Xinbao Qiao, Meng Zhang, Ming Tang, Ermin Wei

arXiv:2404.01712v4 宣告类型: replace-cross 摘要：机器卸载旨在通过使模型选择性地忘记特定数据，来维护数据所有者的被遗忘权利。最近的研究表明，可以通过预计算和存储从二次信息中提取的统计信息，并通过牛顿风格的更新来实现卸载。然而，海森矩阵操作极其昂贵，先前的工作在凸性假设下对经验风险最小化器进行卸载，这排除了它们在高维过度参数化模型和非收敛条件下适用的可能性。在本文中，我们提出了一种高效的无海森矩阵卸载方法。关键思想是为每条训练数据维护一个统计向量，该向量是通过重新训练和已学习模型之间的差异的仿射随机递归计算得出的。我们证明，在相同的正则条件下，我们提出的方法在卸载和泛化保证、删除容量以及时间/存储复杂性方面都优于最先进的方法。通过重复收集以删除数据所需的统计信息，我们开发了一种在线卸载算法，该算法实现了近乎即时的数据删除，因为它只需要向量相加。实验结果表明，与毫秒级卸载执行时间及存储成本方面的现有结果相比，我们提出的方案在时间/存储成本方面提高了多个数量级，同时还提高了测试准确率。

发布时间: 2/7/2025

查看原文

MA4DIV：多代理 reinforcement 学习用于搜索结果多样化

作者: Yiqun Chen, Jiaxin Mao, Yi Zhang, Dehong Ma, Long Xia, Jun Fan, Daiting Shi, Zhicong Cheng, Simiu Gu, Dawei Yin

arXiv:2403.17421v3 宣布类型: replace-cross 摘要：搜索结果多样化（SRD），其目标是在ranking列表中确保文档覆盖广泛的次级主题，在信息检索和网络搜索领域是一个重要且广泛研究的问题。现有方法主要利用“贪婪选择”范式，即一次选择得分最高的多样性得分文档，或优化目标函数的近似值。这些方法往往效率低下，并且容易陷入次优状态。为了解决这些挑战，我们引入了多智能体强化学习（MARL）用于搜索结果的多样性，称为MA4DIV。在这个方法中，每份文档都是一个智能体，搜索结果的多样化被建模为多个智能体之间的合作任务。通过将SRD排名问题建模为合作的MARL问题，这种方法允许直接优化多样性指标，例如$\alpha$-NDCG，同时实现高效的训练效率。我们在公开的TREC数据集和工业设置中的更大规模数据集上进行了实验。实验结果表明，在效果和效率方面，MA4DIV相比现有基准方法实现了显著改进，尤其是在工业数据集上。MA4DIV的代码可以在https://github.com/chenyiqun/MA4DIV上查看。

发布时间: 2/7/2025

查看原文

CollagePrompt：一种基于GPT-4V的经济实惠的视觉识别基准

作者: Siyu Xu, Yunke Wang, Daochang Liu, Bo Du, Chang Xu

arXiv:2403.11468v2 宣布类型: replace-cross 摘要：近年来生成式AI的发展表明，通过提供视觉提示，GPT-4V可以在视觉识别任务中表现出显著的能力。尽管具有令人印象深刻的性能，但与GPT-4V推理相关的高昂成本构成了广泛应用的障碍。为了解决这一挑战，我们提出了一种经济实惠的拼接提示任务，将多个图像拼接成一个视觉提示，使GPT-4V能够同时对多个图像进行视觉识别，从而降低成本。我们收集了一个包含各种拼接提示的数据集，以评估其在GPT-4V视觉识别中的性能。我们的评估揭示了几个关键发现：1) 拼接中的不同位置对识别准确性有影响。2) 将同一类别的图像分组在一起可以产生更好的视觉识别结果。3) 错误的标签通常来自相邻的图像。这些发现强调了拼接提示中图像排列的重要性。为此，我们构建了一个基准，称为CollagePrompt，该基准为设计拼接提示以实现更经济高效的GPT-4V视觉识别提供了一个平台。我们提出了基于遗传算法的基线方法来优化拼接布局，并引入了两个度量标准来衡量优化拼接提示的效率。我们的基准使研究人员能够更好地优化拼接提示，从而使得GPT-4V在视觉识别中更加经济实惠。代码和数据可在该项目页面https://collageprompting.github.io/获取。

发布时间: 2/7/2025

查看原文

分区神经网络训练通过合成中间标签

作者: Cevat Volkan Karada\u{g}, Nezih Topalo\u{g}lu

arXiv:2403.11204v2 宣告类型: replace-cross 摘要：大量复杂的神经网络架构，尤其是深度学习模型，在训练过程中消耗了大量资源。GPU 内存限制已成为训练这些庞大模型的一个显著瓶颈。现有的策略，包括数据并行、模型并行、流水线并行和完全分割的数据并行，只提供了一部分解决方案。尤其是模型并行，使整个模型分布在多个 GPU 上，但这些分区之间的数据通信会减慢训练速度。此外，每个 GPU 上存储辅助参数所需的大量内存开销增加了计算负担。与使用整个模型进行训练不同，本文提倡将模型分布在多个 GPU 上，并生成合成的中间标签来训练各个片段。这些标签通过随机过程生成，有助于减少内存开销和计算负担。这种方法通过减少数据通信的同时保持模型准确性，实现了更高效的训练过程。为了验证该方法，将一个6层的全连接神经网络分为两部分，并在扩展的 MNIST 数据集上评估其性能。实验结果表明，所提出的方法在测试准确性上与传统的训练方法相当，同时显著减少了内存和计算需求。这项工作有助于缓解训练大型神经网络的资源密集特性，为更高效的深度学习模型开发铺平了道路。

发布时间: 2/7/2025

查看原文

带对抗专家的鲁棒决策聚合

作者: Yongkang Guo, Yuqing Kong

arXiv:2403.08222v2 通知类型: replace-cross 摘要: 在存在诚实专家和恶意专家的情况下，我们考虑了稳健的聚合问题。诚实专家将如实报告他们的私人信号，而恶意专家则可以任意报告。我们假设专家在边缘对称的意义上是相同的，即他们共享同样的先验概率和边际后验概率。规则制定者需要设计一个聚合器，从这些专家的报告中预测真实的世界状态，而不了解底层信息结构或恶意策略。我们的目标是在最糟糕的信息结构和恶意策略下找到一个最优的聚合器，该聚合器输出的预测能够最小化遗憾。遗憾定义为该聚合器的预期损失与给定信息结构和诚实专家报告的最优聚合者之间的预期损失差值。我们关注二元状态和报告。在L1损失下，我们证明截断均值聚合器是最佳的。当最多有k个恶意者时，聚合器舍弃最低和最高的k个报告值，并对剩余值求平均。对于L2损失，最优聚合器是分段线性函数。当恶意者的比例受专家的先验和后验确定的某个值以上限制时，所有最优性都成立。遗憾只取决于恶意者的比例，而与恶意者的总数量无关。对于输出决策的硬聚合器，我们证明在L1和L2下，随机版本的截断均值聚合器是最佳的。这种聚合器在舍弃最低和最高的k个报告值后，随机跟随剩余的一个值。我们将硬聚合器推广到多状态设置。我们在集成学习任务中数值评估了我们的聚合器。我们在更广泛的信息结构和报告空间下的普遍恶意聚合问题上也得到了一些负面结果。

发布时间: 2/7/2025

查看原文

EBBS：一种基于双层束搜索的集成零样本机器翻译方法

作者: Yuqiao Wen, Behzad Shayegh, Chenyang Huang, Yanshuai Cao, Lili Mou

arXiv:2403.00144v2 宣告类型: replace-cross 摘要: 当我们用某些翻译方向训练一个多语言模型时，零-shot 翻译能力就会出现；模型随后可以直接在未见过的方向上进行翻译。或者，可以通过经过第三种语言（例如英语）来实现零-shot 翻译。在我们的工作中，我们发现直接翻译和转折翻译都具有噪音，并且其性能不尽如人意。我们提出了一种新颖的双层束搜索算法的集成方法 EBBS，每个集成组件在其较低层次逐步探索其自己的预测步骤，但在较高层次上通过“软投票”机制进行同步。在两个流行的多语言翻译数据集上的结果表明，EBBS 一致优于直接翻译、转折翻译以及现有的集成技术。此外，我们可以通过将集成的知识回输到多语言模型来提高推理效率；更进一步地，基于 EBBS 的回输并不会牺牲，甚至可以提高翻译质量。

发布时间: 2/7/2025

查看原文

基于人体骨架的人员重识别：3D 骨架 Personen 再识别综述

作者: Haocong Rao, Chunyan Miao

arXiv:2401.15296v2 通告类型: 替换-交叉摘要：基于3D骨架的人再识别是模式识别社区中一个日益引起关注的重要新兴研究领域。鉴于其在各种应用场景中的独特优势，近年来提出了多种基于3D骨架的人再识别(SRID)方法，这些方法具有不同的骨架建模和学习范式。在本文综述中，我们提供了一个全面的回顾和分析，概述了近年来的SRID进展。首先，我们定义了SRID任务，并提供了其起源及其主要进展的概述。其次，我们制定了一种系统性的分类法，根据不同的骨架建模方法（即手工打造、序列基、图基）将现有方法分类为三类。然后，我们详细介绍了这三类中的代表模型，并对其优缺点进行了分析。同时，我们对主流的监督、自监督和无监督的SRID学习范式及其相应的骨架语义学习任务进行了深入回顾。我们进一步对各种类型的基准和协议进行了全面评估，以比较这些方法的有效性和效率。最后，我们讨论了现有研究的挑战，并指出了未来研究有希望的方向，强调了SRID的研究影响及其潜在应用。

发布时间: 2/7/2025

查看原文

GraphGPT：生成预训练图欧拉变换器

作者: Qifang Zhao, Weidong Ren, Tianyu Li, Hong Liu, Xingsheng He, Xiaoxiao Xu

arXiv:2401.00529v2 通知类型: replace-cross 摘要: 我们介绍了GraphGPT，这是一种基于Graph Eulerian Transformer (GET)的新颖的自监督生成预训练图学习模型。首先，我们提出了GET，它将标准的变压器编码器或解码器架构与一种创新的图形到序列的转换方法相结合。这种方法使用欧拉路径以可逆的方式将图形或采样的子图形转换为表示节点、边和属性的令牌序列。我们使用两种自监督任务之一对GET进行预训练：下一标记预测 (NTP) 和定时掩码标记预测 (SMTP)。预训练模型随后可以针对下游任务进行微调，例如图级、边级和节点级预测。尽管架构简单，但GraphGPT在多个大规模Open Graph Benchmark (OGB) 数据集上的性能与现有的先进方法相当或超过现有方法。它在分子性质预测数据集PCQM4Mv2和蛋白质-蛋白质相互作用数据集ogbl-ppa上取得了出色的结果。值得注意的是，生成式预训练使GraphGPT能够扩展到20亿参数的同时保持性能提升，这是一项突破，克服了传统图神经网络 (GNN) 和先前图变压器 (GT) 的可扩展性限制。为了促进图基础模型领域的研究，并在化学、材料科学及相关领域促进科学发现，我们将发布源代码 (https://github.com/alibaba/graph-gpt) 和预训练检查点。

发布时间: 2/7/2025

查看原文