arXiv 论文列表

作者: Yue Zhang, Liqiang Jing, Vibhav Gogate

arXiv:2412.16232v2 通知类型: replace-cross 摘要: 我们介绍了一个新的任务称为可反驳视觉蕴含(DVE)，目标是在基于额外更新的条件下，允许修改图像前提与文本假设之间的蕴含关系。虽然这一概念在自然语言推理中已有很好的确立，但在视觉蕴含中仍处于未被探索的领域。从宏观上来说，DVE 允许模型对其初始解释进行修正，这将提高诸如检测图像中的误导性信息、增强视觉问答以及在自主系统中细化决策过程等多种应用中的准确性和可靠性。当前的评估指标并不能充分捕捉由更新带来的蕴含关系的变化。为解决这一问题，我们提出了一种新的感知推理评估器，用于捕捉由更新引起的蕴含强度变化，该评估器采用了成对对比学习和分类信息学习。此外，我们还引入了一种奖励驱动的更新优化方法，以进一步提升由多模态模型生成的更新质量。实验结果表明，我们提出的评估器和优化方法的有效性。

发布时间: 2/4/2025

查看原文

解释服务于谁？可解释推荐系统评估中用户特征的系统性文献综述

作者: Kathrin Wardatzky, Oana Inel, Luca Rossetto, Abraham Bernstein

arXiv:2412.14193v2 推荐系统类型: 交叉替换摘要：向推荐系统添加解释被认为具有多种益处，例如增加用户信任或系统透明度。来自其他应用领域的先前研究指出，特定的用户特征会影响用户对解释的感知。然而，我们很少在推荐系统解释方面找到此类评估。本文通过调查124篇在用户研究中评估推荐系统解释的论文来填补这一空白。我们分析了这些论文中的参与者描述和研究结果，其中衡量了用户特征对解释效果的影响。我们的发现表明，调查研究的结果主要涵盖特定用户群体，这些用户并不一定代表评价领域中推荐系统的用户。这可能严重妨碍我们从当前关于推荐系统解释的研究中获得任何见解的普遍性。我们还发现了数据报告中的一致性问题，这影响了报告结果的可重复性。因此，我们建议采取行动以推动更加包容和可重复的评估。

发布时间: 2/4/2025

查看原文

激活稀疏性 opportunities for 压缩通用大型语言模型

作者: Nobel Dhar, Bobin Deng, Md Romyull Islam, Kazi Fahim Ahmad Nasif, Liang Zhao, Kun Suo

arXiv:2412.12178v2 宣布类型: replace-cross 摘要：将大型语言模型（LLMs）部署到边缘设备上可以显著提升设备的独立能力，减轻服务器的负担并降低响应时间。鉴于这些巨大的潜力，许多大型科技公司已经发布了几种轻量级的语言模型（SLMs）来弥补这一差距。然而，我们仍然有很大的动力将更强大的（LLMs）AI模型部署到边缘设备上并提高其智能水平。与传统的AI模型压缩方法不同，我们研究了激活稀疏性。激活稀疏性方法与现有技术正交且可组合，可以在保持高精度的同时最大化压缩率。LLMs中的前向网络（FFN）组件通常约占参数量的2/3（约67%），这确保了我们的FFN优化有更大概率实现有效的压缩。此外，我们的发现适用于一般的LLMs，并不局限于基于ReLU的模型。这项工作系统地研究了在最先进的LLMs上强制执行激活稀疏性和困惑度（准确度）之间的权衡。我们的实证分析表明，我们可以在可忽略不计的准确度下降的情况下，获得主要FFN组件约50%的主要内存和计算量减少。这种额外的50%稀疏性在当前的LLMs中并不存在，需要通过注入零强制阈值来调整LLMs的激活输出。为了获得激活稀疏性的益处，我们为LLM预测和预取提供了一个系统架构师指南。成功预测允许系统预取必要的权重，同时忽略不活跃的权重及其后续权重，从而减少缓存和内存污染，并降低资源受限边缘设备上的LLM执行时间。

发布时间: 2/4/2025

查看原文

带有文本控制属性的 Transferable 对抗面部攻击

作者: Wenyun Li, Zheng Zhang, Xiangyuan Lan, Dongmei Jiang

arXiv:2412.11735v2 类别: replace-cross 摘要：传统的对抗攻击通常在范数约束条件下生成对抗样本，而无约束的对抗样本具有自由形式并在语义上有意义的扰动。当前的无约束对抗模仿攻击在控制对抗面属性方面能力有限，且往往表现出较低的移植性。本文我们提出了一个名为文本控制属性攻击（TCA\textsuperscript{2}）的新颖方法，以自然语言为指导生成逼真的对抗模仿面部。具体来说，类别级别的个人softmax向量被用来精确引导模仿攻击。此外，我们提出了数据和模型增强策略，以在未知目标模型上实现可移植的攻击。最后，我们利用生成模型，即Style-GAN，合成具有所需属性的模仿面部。在两个高分辨率面部识别数据集上的广泛实验验证了我们的TCA\textsuperscript{2}方法可以生成自然文本引导的具有高移植性的对抗模仿面部。我们还评估了我们的方法在实际面部识别系统上，即Face++和阿里云上，进一步展示了我们方法的实际应用潜力。

发布时间: 2/4/2025

查看原文

你需要贝叶斯流即可采样出-of-distribution化学空间

作者: Nianze Tao

arXiv:2412.11439v3 宣告类型: replace-cross 摘要：生成具有比训练空间更高性质的新分子，即离分布生成，对于${de~novo}$药物设计至关重要。然而，例如扩散模型等基于分布学习的方法很难解决这一挑战，因为这些方法设计时的目标是尽可能地拟合训练数据的分布。在本文中，我们证明了Bayesian流网络能够轻松生成高品质的离分布样本，这些样本适用于多种场景。我们引入了一种半自回归训练/采样方法，有助于提高模型性能并超越现有最先进的模型。

发布时间: 2/4/2025

查看原文

Iris: 通过自适应焦点与自我精炼简化GUI复杂性

作者: Zhiqi Ge, Juncheng Li, Xinglei Pang, Minghe Gao, Kaihang Pan, Wang Lin, Hao Fei, Wenqiao Zhang, Siliang Tang, Yueting Zhuang

arXiv:2412.10342v2 通知类型: replace-cross 摘要：数字代理正越来越多地被用于自动化交互数字环境（如网页、软件应用程序和操作系统中的任务）。虽然基于大型语言模型（LLMs）的文本代理需要频繁更新以适应特定平台的API，但利用多功能大型语言模型（MLLMs）的视觉代理通过直接与图形用户界面（GUI）交互，增强了适应性。然而，这些代理在视觉感知方面面临重大挑战，特别是在处理高分辨率、视觉复杂的数字环境中时。本文介绍了Iris，这是一种基础视觉代理，通过两项关键技术革新来解决这些挑战：信息敏感裁剪（ISC）和自我精细双学习（SRDL）。ISC利用边缘检测算法动态识别并优先处理视觉密集区域，通过将更多的计算资源分配给信息密度较高的区域来实现高效处理。SRDL通过利用双重学习循环来增强代理处理复杂任务的能力，在该循环中，描述UI元素的改进会强化定位元素，并反之亦然，而无需额外的标注数据。实证评估表明，Iris仅使用850K GUI注释即可在多个基准测试中达到最先进的性能，而使用10倍以上训练数据的方法则无法超越其性能。这些改进还进一步转化为在Web和操作系统代理下游任务中的重大收益。

发布时间: 2/4/2025

查看原文

基于图变压器的主题引导骨架组合骨架原型学习的人重组识别

作者: Haocong Rao, Chunyan Miao

arXiv:2412.09044v2 发布类型: replace-cross 摘要：通过3D骨架数据进行行人重新识别（re-ID）是一项在许多应用场景中具有重要价值但极具挑战性的任务。现有的基于骨架的方法通常假设所有关节之间的虚拟运动关系，并采用均值关节或序列表示进行学习。然而，它们很少探索关键的躯体结构和运动，如步态，以关注更重要的关节或肢体，缺乏充分挖掘骨架的时空子模式的能力，以增强模型学习。本文提出了一种通用的由动机引导的图变换器MoCoS，该变换器利用特定结构和步态相关的身体关系以及骨架图的组合特征，学习有效的骨架表示以进行行人重新识别。具体而言，受到关节结构中的局部性和步态中身体组件协作的启发，我们首先提出了一种动机引导的图变换器（MGT），它结合了分层结构动机和步态协作动机，同时关注多阶局部关节相关性和关键协同身体部分，以增强骨架关系学习。然后，我们设计了组合骨架原型学习（CSP），利用关节节点和骨架图的空间-时间随机组合生成多样性的子骨架和子片段表示，这些表示被与每个身份最具代表性的特征（原型）进行对比，以学习类别相关的语义和判别性骨架表示。广泛的实验验证了MoCoS在现有先进技术模型中的优越性能。我们进一步展示了MoCoS在RGB估计的骨架、不同的图建模以及无监督场景下的通用性。

发布时间: 2/4/2025

查看原文

变量评分变化

作者: Stephen Robbins

arXiv:2412.07904v2 通知类型: replace-cross 摘要: 我们推导了一般变量替换公式，对于一个光滑可逆的变换 $\mathbf{y} = \phi(\mathbf{x})$，我们展示了变换后的分数函数 $\nabla_{\mathbf{y}} \log q(\mathbf{y})$ 可以直接用 $\nabla_{\mathbf{x}} \log p(\mathbf{x})$ 表达。利用这一结果，我们开发了两个应用：首先，我们建立了基于分数扩散模型的反时间伊托引理，这允许在变换空间中逆向一个 SDE，而不直接学习 $\nabla_{\mathbf{y}} \log q_t(\mathbf{y})$。这种方法使得可以在一个空间训练扩散模型但在另一个空间进行采样，有效地解耦了正向和反向过程。其次，我们引入了一般化切片分数匹配，将传统的切片分数匹配从线性投影扩展到任意光滑的变换。这在高维密度估计中提供了更大的灵活性。我们通过扩散在概率单纯形上的应用展示这些理论进步，并且实证地将我们的一般化分数匹配方法与传统切片分数匹配方法进行了比较。

发布时间: 2/4/2025

查看原文

Tazza: 洗牌神经网络参数以实现安全和私密的联邦学习

作者: Kichang Lee, Jaeho Jin, JaeYeon Park, Songkuk Kim, JeongGil Ko

arXiv:2412.07454v2 安全性类型：互换交叉替换摘要：联邦学习允许在不共享原始数据的情况下进行分布式模型训练，从而保护数据隐私。然而，其对关键安全威胁（如梯度反向工程和恶意客户端的模型毒化）的易感性尚未得到解决。现有的解决方案往往分别解决这些问题，要么牺牲系统鲁棒性，要么牺牲模型准确度。本工作引入了Tazza，这是一个安全高效的联邦学习框架，能够同时解决这两个挑战。通过利用神经网络的置换不变性和置换协变性特性，Tazza 通过权重混合和混合模型验证增强了对多种毒化攻击的抵御能力，同时确保数据保密性和高模型准确度。在各种数据集和嵌入式平台上的全面评估表明，Tazza 实现了鲁棒防御，与替代方案相比，计算效率提高了最多6.7倍，但并未牺牲性能。

发布时间: 2/4/2025

查看原文

FM2DS: 少量样本多模态多跳数据合成与知识蒸馏用于问答

作者: Amirhossein Abaskohi, Spandana Gella, Giuseppe Carenini, Issam H. Laradji

arXiv:2412.07030v3 宣告类型: replace-cross 摘要：多模态多跳问答是一个复杂的任务，要求在图像和文本等多种信息源之间进行推理以回答问题。尽管在视觉问答领域已经取得了显著的进步，但由于缺乏高质量的数据集，多跳设置仍未被探索。目前的方法主要关注单跳问答或单一模态，使得它们不适合现实世界的情况，例如分析多模态教育资源、总结冗长的学术文章或解释综合图表、图像和文本的科学研究。为了解决这一缺口，我们提出了一种新的方法论，并引入了第一个用于创建高质量数据集的框架，该数据集使得可以训练进行多模态多跳问答的模型。我们的方法包含一个五阶段管道，涉及从维基百科获取相关多模态文档，合成生成高级问题和答案，并通过严格的验证标准确保数据质量。我们通过在我们合成的数据集上训练模型并在两个基准测试上进行测试来评估我们的方法论，结果显示，使用相同样本大小时，我们合成数据集上训练的模型在精确匹配（EM）方面平均优于从人类收集的数据集上训练的模型1.9的性能。我们相信我们的数据合成方法将为训练和评估多模态多跳问答模型提供坚实的基础。

发布时间: 2/4/2025

查看原文