arXiv 论文列表

FlowDistill：来自LLMs的 distillation 知识规模化交通流预测

作者: Chenyang Yu, Xinpeng Xie, Yan Huang, Chenxi Qiu

arXiv:2504.02094v1 类型:交叉摘要:准确的交通流量预测对于优化城市流动性至关重要，但由于复杂的时空依赖性和有限的高质量数据，在许多城市中仍是一个挑战。尽管基于深层图的模型展示了强大的预测能力，但它们的性能通常伴随着高额的计算开销和大量的训练数据需求，这使得它们在资源受限或数据稀缺的环境中难以部署。我们提出了FlowDistill，这是一种基于大规模语言模型（LLMs）知识蒸馏的轻量级且可扩展的交通预测框架。在这个老师-学生设置中，一个微调后的LLM使用一种新颖的信息瓶颈原则和教师约束回归损失的组合，引导一个紧凑的多层感知器（MLP）学生模型，确保提取模型只保留必要的可迁移知识。空间和时间关联性被明确编码，以增强模型在不同城市环境中的泛化能力。尽管设计简单，FlowDistill 在预测准确性方面仍能够持续超越最先进的模型，所需训练数据大幅减少，同时实现更低的内存使用和推理延迟，突显了其效率和适用于实际应用、可扩展部署的适用性。

发布时间: 4/4/2025

查看原文

基于自动编码器的深度聚类简介——聚类与深度学习相结合的沙箱探索

作者: Collin Leiber, Lukas Miklautz, Claudia Plant, Christian B\"ohm

arXiv:2504.02087v1 宣告类型: cross 摘要：自编码器提供了一种通用的方法，可以从无标签的数据中学习低维度的非线性表示。这可以通过对数据类型或其他领域知识不做任何特殊假设来实现。自编码器的一般性和领域无关性与其简洁性相结合，使其成为研究和发展新的（深度）聚类算法的理想实验平台。基于聚类方法根据相似性对数据进行分组，而自编码器学习到的低维度表示则有助于减轻维度灾难，从而使该任务获益。特别是，自编码器与聚类的结合，称为深度聚类，能够学习特定聚类任务所需的表示，从而产生高质量的结果。本文综述了基于自编码器的基础深度聚类算法，这些算法为许多现代方法提供了构建块。

发布时间: 4/4/2025

查看原文

LLM中 evolving 安全性：一次关于 jailbreak 攻击与防御的研究

作者: Zhengchun Shang, Wenlan Wei

arXiv:2504.02080v1 安全类型：跨域摘要：大型语言模型（LLMs）越来越受欢迎，推动了广泛的应用。它们的广泛应用引发了担忧，尤其是在规避安全措施以生成有害内容的牢笼突破攻击方面。在本文中，我们对大型语言模型（LLMs）进行了全面的安全分析，针对模型安全的演变及其决定因素提出了关键的研究问题。具体来说，我们首先识别出检测牢笼突破攻击最有效的技术。接着，我们研究了新版本的LLMs是否相比其前身提供了更好的安全性。我们也评估了模型大小对整体安全的影响，并探索了整合多种防御策略以增强模型鲁棒性的潜在益处。我们的研究所使用了四种先进的攻击技术来评估开源模型（例如，LLaMA和Mistral）和专有系统（例如，GPT-4）的安全性，并评估了三种新防御方法的有效性。

发布时间: 4/4/2025

查看原文

被困在期望之中：LLM增强聊天搜索中的功能固着

作者: Jiqun Liu, Jamshed Karimnazarov, Ryen W. White

arXiv:2504.02074v1 分类: 交叉学科摘要：功能固着是一种认知偏差，限制了用户与新系统或工具的互动仅限于预期或熟悉的模式，这限制了大型语言模型（LLM）赋能的聊天搜索的全部潜力，特别是在复杂和探索性任务中。为了探究其影响，我们进行了一个包含450名参与者的众包研究，每位参与者完成了六项涵盖公共安全、饮食和健康管理、可持续性和AI伦理的不同决策任务。参与者与ChatGPT进行多提示对话以解决任务，使我们能够比较聊天前的意图预期与实际互动。我们发现：1）聊天前的预期多个方面与用户以前与ChatGPT、搜索引擎和虚拟助手的 experience 相关；2）以前的系统经验影响语言使用和查询行为。频繁使用ChatGPT的用户减少了指示代词和模糊词汇的使用，并频繁调整查询。拥有丰富搜索经验的用户维持了结构化、非对话性的查询，并进行了少量修改。虚拟助手的用户偏好指令性的、类似命令的查询，强化了功能固着；3）当系统未能满足预期时，参与者生成了更详细的查询，并增加了语言多样性，反映了适应性转变。这些发现表明，虽然预设的预期限制了早期的互动，但未满足的预期可以促进行为上的适应。适当的系统支持这可能促进更广泛的探索LLM的能力。这项工作还介绍了聊天搜索中用户意图的分类，并突出了减轻功能固着的重要性，以支持更富有创造性和分析性的使用LLM。

发布时间: 4/4/2025

查看原文

RoboAct-CLIP：由视频驱动的原子动作理解预训练机器人技术

作者: Zhiyuan Zhang, Yuxin He, Yong Sun, Junyu Shi, Lijiang Liu, Qiang Nie

arXiv:2504.02069v1 交叉公告类型摘要：视觉语言模型（VLMs）已成为机器人系统的关键工具，通过多模态感知和语义推理，实现了跨任务泛化、动态环境交互和长期规划。然而，现有的开源VLMs大多主要用于通用视觉-语言对齐任务，未能有效地建模对于机器人操作至关重要的时间相关动作语义。尽管当前基于图像的微调方法部分适应VLMs以用于机器人应用，但它们根本忽略了视频序列中的时间演变模式，并且由于机器人代理、被操作对象和环境背景之间的视觉特征纠缠，从而限制了原子动作的语义解耦能力，影响了模型的泛化能力。为了克服这些挑战，本文提出了RoboAct-CLIP，并有两个技术贡献：1）一个数据集重构框架，对开源的机器人视频进行语义约束的动作单元分割和重新注释，构建包含单一原子动作（如“抓取”）的净化训练集；2）基于对比语言-图像预训练（CLIP）架构的时序解耦微调策略，通过将视频帧中的时序动作特征从以对象为中心的特性中解耦，实现机器人原子动作的分层表示学习。模拟环境中的实验结果表明，RoboAct-CLIP预训练模型的成功率比基线VLMs高12%，并且在多对象操作任务中的泛化能力更强。

发布时间: 4/4/2025

查看原文

从文本到图：利用图神经网络增强NLP的可解释性

作者: Fabio Y\'a\~nez-Romero, Andr\'es Montoyo, Armando Su\'arez, Yoan Guti\'errez, Ruslan Mitkov

arXiv:2504.02064v1 交叉类型：cross 摘要：研究人员将自然语言处理任务移交给以Transformer为代表的模型，特别是生成模型，因为这些模型在执行生成和分类任务时表现出高度的灵活性。随着这些模型规模的增加，它们取得了卓越的成果。由于模型规模庞大，很多基于这些模型开发了解释性技术。然而，这一过程变得计算成本高昂。此外，Transformer通过令牌将输入词汇分割成缺乏内在语义意义的序列，使得从一开始就解释模型变得复杂。本研究提出了一种新颖的方法，通过自动将句子转换为图，并通过节点和关系表达基本的语义概念来实现自然语言处理任务的可解释性。这种方法还允许在后续任务中利用这些知识，使其能够在给定分类任务中获取趋势，并理解模型如何将文本中的不同元素与解释的任务联系起来。实验结果表明，在确定给定文本结构中最重要的组成部分方面取得了令人鼓舞的结果。

发布时间: 4/4/2025

查看原文

多智能体LLM系统中的自我资源分配

作者: Alfonso Amayuelas, Jingbo Yang, Saaket Agashe, Ashwin Nagarajan, Antonis Antoniades, Xin Eric Wang, William Wang

arXiv:2504.02051v1 交叉引用类型: cross 摘要：随着大规模语言模型（LLMs）作为代理的不断发展，越来越多的研究致力于将多个代理连接到多代理系统中，以便同时解决任务，重点关注它们在任务分配和协调中的角色。本文探讨了LLMs如何有效地在多个代理之间分配计算任务，同时考虑成本、效率和性能等因素。在本工作中，我们探讨了关键问题，包括LLMs作为协调者和计划者的有效性，并比较了它们在任务分配和协调方面的效果。我们的实验表明，LLMs能够在资源分配任务中实现高度的有效性和准确性。我们发现，在处理并发操作时，计划者方法优于协调者方法，从而提高了效率并更好地利用了代理。此外，我们展示了提供关于工人能力的明确信息能够增强计划者的分配策略，尤其是在处理次优工人时。

发布时间: 4/4/2025

查看原文

反向抽样用于Top-k Shapley值识别

作者: Patrick Kolpaczki, Tim Nielen, Eyke H\"ullermeier

arXiv:2504.02019v1 类别: cross 摘要: 增量特征解释主要依赖于博弈论概念，如Shapley值，将特征视为合作玩家。Shapley值在可解释AI内外的流行性源于其公理上的唯一性。然而，其计算复杂性严重限制了其实用性。大多数研究工作致力于所有特征的Shapley值的均匀近似，无目的地耗费样本在不重要的特征上。相反，识别最重要的k个特征已经足够有洞察力，并且有可能利用与多臂 bandits 领域相关的算法机会。我们提出了可比边际贡献抽样（CMCS），这是一种利用相关观测的新抽样方案，用于解决top-k识别问题的方法。我们进行了实验来展示我们的方法在与竞争baseline相比的有效性。我们的实证发现表明，对所有特征的近似问题的估计质量不一定转移到top-k识别问题上，反之亦然。

发布时间: 4/4/2025

查看原文

HCAF-DTA：结合交叉注意力融合超图神经网络的药物-目标结合亲和力预测

作者: Jiannuo Li, Lan Yao

arXiv:2504.02014v1 类型: cross 摘要: 药物与目标蛋白之间的结合亲和力的准确预测是计算机辅助药物设计的核心任务。现有的深度学习方法往往忽略了药物分子内部亚结构特征和药物-目标蛋白相互作用的信息，导致预测性能受限。在本文中，我们提出了一种基于跨注意力融合超图神经网络的药物-目标蛋白关联预测模型HCAF-DTA。该模型创新性地在特征提取阶段引入了超图表示：基于树分解算法构建药物分子超图，并通过跳跃连接将超图神经网络与图形神经网络融合，提取亚结构和全局特征，超边可以高效地表征功能基团和其他关键化学特征；对于蛋白质特征提取，基于ESM模型接触图预测的残基构建加权图，并使用多层图形神经网络捕获空间依赖性。在预测阶段，设计了一种双向多头跨注意力机制，从原子和氨基酸的双重视角建模分子间相互作用，并通过注意力融合具有相关信息的跨模态特征。在Davis和KIBA等基准数据集上的实验表明，HCAF-DTA在所有三个性能评估指标上均优于现有最佳方法，MSE指标分别达到了0.198和0.122，比最优基线提高了高达4%。

发布时间: 4/4/2025

查看原文

数据高效扩散模型压缩的随机条件化与蒸馏

作者: Dohyun Kim, Sehwan Park, Geonhee Han, Seung Wook Kim, Paul Hongsuck Seo

arXiv:2504.02011v1 公布类型: cross 摘要: 扩散模型通过渐进去噪生成高质量图像，但由于模型规模庞大和反复采样，计算成本高昂。知识蒸馏，即将复杂教师模型的知识转移到简单的学生模型上，已在识别任务中广泛研究，特别是在向学生模型转移训练期间未见的概念方面。然而，将其应用于扩散模型的研究仍处于起步阶段，尤其是在使学生模型能够生成训练图像中未涵盖的概念方面。在本文中，我们提出了一种新颖的方法——随机条件方法，该方法将噪图像与随机选择的文本条件配对，以实现高效、无图像的知识蒸馏。通过利用这种方法，我们展示了学生模型可以生成在训练图像中未见的概念。当应用于条件扩散模型蒸馏时，我们的方法允许学生模型探索条件空间，无需生成特定条件的图像，从而在生成质量和效率方面取得了显著提升。这促进了生成扩散模型的资源高效部署，使其在研究和实际应用中更加易于获取。关于代码、模型和数据集的更多信息，请访问 https://dohyun-as.github.io/Random-Conditioning 。

发布时间: 4/4/2025

查看原文