arXiv 论文列表

作者: Guoxuan Chen, Lianghao Xia, Chao Huang

arXiv:2501.03228v3 宣告类型: replace-cross 摘要：图神经网络（GNNs）通过其进行高阶表示平滑的能力，在协同推荐任务中展现了卓越的性能，有效捕捉了用户交互模式中的结构信息。然而，现有的GNN范式在处理大规模、嘈杂和现实世界数据集时面临着可扩展性和鲁棒性的巨大挑战。为了解决这些挑战，我们提出了LightGNN，这是一个轻量级且基于蒸馏的GNN剪枝框架，旨在大幅降低模型复杂性同时保持核心的合作建模能力。LightGNN框架引入了一个计算效率高的剪枝模块，该模块能够自适应地识别和移除冗余边和嵌入项，以实现模型压缩。该框架由一个耗资源友好的层次知识蒸馏目标引导，其中间层通过增强观察到的图来维持性能，特别是在高压缩率场景中。在公共数据集上的广泛实验表明，LightGNN具有显著的效果，不仅提高了计算效率，还提高了推荐准确性。值得注意的是，LightGNN在保持与更复杂的状态最先进baseline相当的性能的同时，实现了边数80%和嵌入项90%的减少。我们的LightGNN框架的实现可以在github仓库中获得：https://github.com/HKUDS/LightGNN。

发布时间: 2/5/2025

查看原文

CAMP：带有个人资料的协作注意力模型用于车辆路线问题

作者: Chuanbo Hua, Federico Berto, Jiwoo Son, Seunghyun Kang, Changhyun Kwon, Jinkyoo Park

arXiv:2501.02977v2 宣传类型：替换-交叉摘要：概况化的车辆路径问题（PVRP）是异质容量车辆路径问题（HCVRP）的一般化形式，其中的目标是在不同的车辆概况下优化车辆的路径，以满足客户的各种需求，每个客户的偏好或约束条件各不相同。虽然现有的学习方法在解决HCVRP的实时问题上显示出潜力，但尚未有学习方法可以解决更实际和具有挑战性的PVRP。本文中，我们提出了一种综合性注意力模型带概况（CAMP），这是一种使用多智能体强化学习学习PVRP高效解算器的新方法。CAMP 使用专门的基于注意力的编码器架构，在每个车辆概况下并行嵌入概况化的客户表示。我们设计了一个智能体之间的通信层，以便在解码的每一步中进行跨概况化嵌入的合作决策，并使用批量指针机制关注概况化嵌入以评估下一步动作的可能性。我们在两种PVRP变体上评估了CAMP：具有偏好的PVRP，其显式地影响奖励函数，以及具有区城约束的PVRP，具有不同数量的智能体和客户，展示了我们的学习解算器在解决质量与计算效率方面与经典的最先进的神经多智能体模型相比取得了竞争力的结果。我们将在 https://github.com/ai4co/camp 开放代码供参考。

发布时间: 2/5/2025

查看原文

平衡多视图聚类

作者: Zhenglai Li, Jun Wang, Chang Tang, Xinzhong Zhu, Wei Zhang, Xinwang Liu

arXiv:2501.02564v3 宣告类型: replace-cross 摘要：多视图聚类（MvC）旨在整合不同视图中的信息，以增强模型捕捉潜在数据结构的能力。在多视图聚类中广泛使用的联合训练范式可能未能充分利用多视图信息，因为所有视图统一的学习目标导致了视图特定特征的不平衡和未优化。例如，某些包含更多区分性信息的视图可能在联合训练范式中主导学习过程，导致其他视图被未优化。为了解决这一问题，我们首先从每个视图特定特征提取器的梯度下降的角度分析了多视图聚类联合训练范式中的不平衡现象。然后，我们提出了一种新的平衡多视图聚类（BMvC）方法，该方法引入了一种视图特定对比正则化（VCR），以调节每种视图的优化。具体来说，VCR将联合特征和视图特定特征捕获的样本相似性保留到相应的聚类分布中，以增强视图特定特征提取器的学习过程。此外，还提供了一种理论分析来说明VCR如何适应性地调节更新视图特定特征提取器参数的梯度大小，以实现平衡的多视图学习过程。通过这种方式，BMvC能够在保留视图特定模式和探索视图不变模式之间取得更好的权衡，从而充分利用多视图信息来完成聚类任务。最后，进行了几组实验来验证与最新方法相比，所提出方法在八个基准多视图聚类数据集上的优越性。

发布时间: 2/5/2025

查看原文

LLM+AL：连接大型语言模型与动作语言以进行复杂的动作推理

作者: Adam Ishay, Joohyung Lee

arXiv:2501.00830v2 通知类型: replace-cross 摘要：大型语言模型（LLMs）在各种智能任务中取得了重大进展，但在需要系统搜索的复杂动作推理任务中仍然存在困难。为解决这一局限性，我们提出了一种方法，将LLMs的自然语言理解能力与动作语言的符号推理能力相结合。我们的方法称为“LLM+AL”，它利用了LLMs在语义解析和常识知识生成方面的优势，以及动作语言在基于编码知识的自动推理方面的专长。我们使用复杂动作推理基准测试将LLM+AL与最先进的LLMs（包括ChatGPT-4、Claude 3 Opus、Gemini Ultra 1.0和o1-preview）进行了对比。我们的研究结果表明，尽管所有方法都存在错误，但LLM+AL在相对少量的人工修正下，始终能够得出正确的答案，而单独的LLMs即使在得到人类反馈的情况下也无法改进。LLM+AL还贡献于自动生成动作语言。

发布时间: 2/5/2025

查看原文

Faster Vision Mamba在几分钟内通过合并令牌重训练重建

作者: Mingjia Shi, Yuhao Zhou, Ruiji Yu, Zekai Li, Zhiyuan Liang, Xuanlei Zhao, Xiaojiang Peng, Shanmukha Ramakrishna Vedantam, Wangbo Zhao, Kai Wang, Yang You

arXiv:2412.12496v2 宣布类型: 替换-交叉摘要：Vision Mamba（例如，Vim）已经成功地集成到了计算机视觉中，在Vision Transformers（ViTs）中，令牌减少已经取得了令人振奋的结果。然而，对于Vision Mamba来说，令牌减少的效果不如对于ViTs那么有效。在Mamba中修剪信息性令牌导致了关键知识的大量丧失和较差的性能，这使得它不是一个提高Mamba效率的好方案。保留的信息性令牌比修剪更多的令牌性能在ViTs中已经表现出了出色的结果。然而，当减少比例增加时，即使是简单的合并性能也开始下降，无法在Mamba中保持关键知识。通过对减少后的模型进行重新培训，可以有效重建关键知识，从而提高Mamba的性能。实验证明，在我们的主要评估中，提出的方法R-MeeTo可以将修剪后的Vims的准确率下降控制在0.9%以内，并在ImageNet-1K上恢复。我们展示了如何在分钟级内实现快速恢复，特别是在对Vim-Ti进行了3轮训练后，准确率提高了35.9%。此外，Vim-Ti/S/B分别在5/7/17分钟内进行了重新培训，Vim-S的准确率下降了1.3%，但在推理速度上提高了1.2倍（最高可达1.5倍）。

发布时间: 2/5/2025

查看原文

SepLLM: 通过将一段压缩为一个分隔符来加速大型语言模型

作者: Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang

arXiv:2412.12094v4 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在一系列自然语言处理任务中表现出色。然而，它们巨大的规模带来了显著的挑战，特别是在计算需求和推理速度方面，由于其 quadratic 复杂性。在这项工作中，我们发现了一个关键模式：某些看似无意义的特殊标记（即分隔符）相比具有语义意义的标记，在注意力得分中占比异常高。这一观察表明，这些分隔符之间的段落信息可以有效被压缩并汇总到分隔符本身，而不损失显著的信息。鉴于这一洞察，我们引入了 SepLLM，这是一种即插即用框架，通过压缩这些段落并消除冗余标记来加速推理。此外，我们还实现了高效的训练内核以加速训练。在无训练、从零开始训练和后训练设置下的实验结果表明 SepLLM 的有效性。值得注意的是，使用 Llama-3-8B 底模，SepLLM 在 GSM8K-CoT 基准测试中 KV 缓存减少了超过 50%，同时保持了相当的性能。此外，在流式设置下，SepLLM 能够处理多达 4 百万甚至更多的标记序列，同时保持一致的语言建模能力。

发布时间: 2/5/2025

查看原文

DART：一种使用重述文本AMR的AIGT检测器

作者: Hyeonchu Park, Byungjun Kim, Bugeun Kim

arXiv:2412.11517v2 Announce Type: replace-cross 摘要：随着大型语言模型（LLMs）生成的人类般的文本越来越多，人们对AI生成文本（AIGT）副作用的担忧也在增加。因此，研究人员开发了检测AIGT的方法。然而，仍然存在两个挑战。首先，检测黑盒LLMs的性能较低，因为现有模型主要关注概率特征。其次，大多数AIGT检测器仅在单候选设置下进行了测试，假设我们已知AIGT的来源，这可能与实际情况有所偏差。为了解决这些挑战，我们提出了DART，它包括四个步骤：重写、语义解析、评分和多类分类。我们进行了三项实验以测试DART的表现。实验结果显示，DART可以区分多个不依赖概率特征的黑盒LLMs以及AIGT的来源。

发布时间: 2/5/2025

查看原文

什么是深度伪造？欧盟AI法案中合法处理与篡改之间的模糊界限

作者: Kristof Meding, Christoph Sorge

arXiv:2412.09961v2 宣告类型: 交叉替换摘要: 数字图像何时会像现实一样？随着合成图像（所谓的“深度复制品”）的生成变得越来越流行，这个问题的相关性也在增加。由于它们有可能扰乱政治气候，深度复制品引起了广泛关注。欧盟人工智能法案通过了特定的透明度法规来应对生成合成内容或篡改现有内容的问题。然而，从计算机视觉的角度来看，区分真实和合成图像远非轻而易举。我们主张，欧盟人工智能法案中当前对深度复制品的定义以及相应的义务不够明确，不足以应对深度复制品带来的挑战。通过对从相机传感器到数字编辑功能的数字照片生命周期的分析，我们发现：(1) 欧盟人工智能法案中对深度复制品的定义不明确。该定义留给人们对深度复制品的定义过多的自由度。(2) 编辑功能如Google的“最佳拍摄”功能的透明度义务是否可以被视为例外尚不明确。(3) 对重大编辑图像的例外情况引发了关于内容的重大编辑构成以及这些编辑是否必须对自然人可感知的问题的质疑。我们的研究结果表明，遵守当前人工智能法案的透明度义务对提供者和部署者来说具有很大的难度。由于规定不够清楚，可能会导致例外过于宽泛或过于受限。我们希望通过我们的分析促进对深度复制品构成的讨论，并提高对当前人工智能法案透明度义务陷阱的认识。

发布时间: 2/5/2025

查看原文

Forest-of-Thought：扩大测试时计算规模以增强LLM推理

作者: Zhenni Bi, Kai Han, Chuanjian Liu, Yehui Tang, Yunhe Wang

arXiv:2412.09078v2 通知类型: 替换-交叉摘要: 大型语言模型（LLMs）在各种语言任务中表现出色，但在解决复杂的推理问题方面仍面临重大挑战。虽然现有的方法，如思维链（CoT）和思维树（ToT），通过分解问题或排列提示来增强推理能力，但它们通常只进行一次推理过程，并且可能会遗漏重新审视错误路径的机会，从而损害准确性。为了解决这一局限性，我们提出了一种名为思维森林（FoT）的新型推理框架，该框架整合了多个推理树以利用集体决策来解决复杂的逻辑问题。FoT采用稀疏激活策略来选择最相关的推理路径，从而提高效率和准确性。此外，我们引入了一种动态自校正策略，以实现实时错误纠正，并结合共识引导的决策策略，以优化正确性和计算资源。实验结果表明，结合这些策略的FoT框架显著增强了LLMs的推理能力，使其能够以更高的精确性和效率解决复杂的任务。

发布时间: 2/5/2025

查看原文

一种评估强化学习超参数敏感性的方法

作者: Jacob Adkins, Michael Bowling, Adam White

arXiv:2412.07165v2 宣告类型: replace-cross 摘要：现代强化学习算法的表现严重依赖于调整不断增加的数量的超参数。通常，超参数的小变化会导致性能发生剧烈变化，不同的环境需要非常不同的超参数设置才能实现文献中报告的顶级性能。目前尚缺乏一种可扩展的且广泛接受的方法来表征这些复杂的交互作用。本项工作提出了一种新的经验方法，用于研究、比较和量化给定环境集中的算法性能对超参数调整的敏感性。然后，我们通过评估几种常用PPO归一化变体的超参数敏感性，展示了该方法的实用性。结果表明，某些算法性能的改进实际上可能是对超参数调整依赖增加的结果。

发布时间: 2/5/2025

查看原文