arXiv 论文列表

作者: Ben Liu, Jihai Zhang, Fangquan Lin, Cheng Yang, Min Peng

arXiv:2412.09094v3 宣告类型: 替换-交叉摘要：大规模语言模型（LLMs）具备巨大的内在知识和卓越的语义理解能力，这已经彻底改变了自然语言处理中各种任务。尽管取得了成功，但使LLMs执行知识图谱补全（KGC）仍然存在一个关键的差距。实验证据表明，即使通过复杂的提示设计或定制指令调优，LLMs在KGC任务上的表现也普遍劣于传统的方法。从根本上讲，在KGC任务中应用LLMs引入了几个关键挑战，包括大量实体候选、LLMs的幻觉问题以及图形结构的过度利用不足。为了解决这些挑战，我们提出了一种新型的基于指令调优的方法，即FtG。具体而言，我们提出了一种过滤-生成的范式，并将KGC任务形式化为一个多项选择题格式。这样一来，我们可以在减轻由幻觉引起的问题的同时利用LLMs的能力。此外，我们设计了一个灵活的自我图序列化提示，并采用结构-文本适配器以上下文相关的方式结合结构和文本信息。实验结果表明，FtG相比现有最先进的方法在性能上实现了显著的提升。数据集和代码可在https://github.com/LB0828/FtG获取。

发布时间: 2/11/2025

查看原文

RADIOv2.5: 改进的聚类视觉基础模型baseline

作者: Greg Heinrich (Danny), Mike Ranzinger (Danny), Hongxu (Danny), Yin, Yao Lu, Jan Kautz, Andrew Tao, Bryan Catanzaro, Pavlo Molchanov

arXiv:2412.07679v2 宣布类型: replace-cross 摘要：聚合模型近年来已成为训练视觉基础模型的强大方法，利用来自现有模型CLIP、DINO和SAM的多教师蒸馏。这种策略能够有效地创建 robust 模型，结合各个教师的优点，同时显著减少计算和资源需求。在本文中，我们深入分析了最先进的聚合模型，识别出包括分辨率模式变化、教师不平衡、教师特有的艺术效果以及输出令牌数量过多在内的关键挑战。为了解决这些问题，我们提出了几种新颖的解决方案：多分辨率训练、马赛克增强以及改进教师损失函数的平衡。具体而言，在视觉语言模型的背景下，我们引入了一种令牌压缩技术，以在固定令牌数内保持高分辨率信息。我们发布了多个尺度（-B、-L、-H 和 -g）的高性能变体，以及推理代码和预训练权重。

发布时间: 2/11/2025

查看原文

知识图谱引导的弃权技术评估

作者: Kinshuk Vasisht, Navreet Kaur, Danish Pruthi

arXiv:2412.07430v2 安全类型：替换交叉摘要：为了安全地部署语言模型，它们必须避免对不当请求进行响应。多项先前研究基于模型阻止恶意请求的有效性来测试模型的安全承诺。在本项工作中，我们专注于评估导致模型避免响应的技术。我们创建了SELECT，这是一个基于知识图谱中的一系列良性概念（例如，“河流”）的基准。专注于良性概念隔离了安全训练的效果，并将这些概念置于知识图谱中，使我们能够研究回避技术的一般化能力和特异性。利用SELECT，我们在六个开源和闭源模型上对标了不同的回避技术。我们发现，所检查的技术确实导致模型的回避率为超过80%。然而，这些技术对于目标概念的后裔而言并不那么有效，其中的回避率下降了19%。我们还分析了不同技术的一般化和特异性之间的权衡。总体而言，没有一种技术始终优于其他技术，我们的发现为实践者提供了各种权衡的指导。

发布时间: 2/11/2025

查看原文

基于AI生成文本检测器对大型语言模型的一项实用检查

作者: Brian Tufts, Xuandong Zhao, Lei Li

arXiv:2412.05139v4 类型: replace-cross 摘要：大型语言模型的普及引发了对其误用日益增长的关注，特别是在AI生成的文本被错误地归因给人类作者的情况下。机器生成内容检测器声称在各种条件下有效识别此类文本，并且可以从任何语言模型中识别。本文通过评估几种流行的检测器（RADAR、Wild、T5Sentinel、Fast-DetectGPT、PHD、LogRank、Binoculars）在这些检测器之前未遇到的各种领域、数据集和模型上，对这些声明进行了批判性评估。我们采用各种提示策略来模拟实际的对抗性攻击，证明即使是适度的努力也能显著规避检测。我们强调在特定假阳性率下的真正阳性率（TPR@FPR）指标的重要性，并展示了这些检测器在某些设置中的表现不佳，[email protected] 低至 0%。我们的研究结果表明，无论是经过训练的还是零样本的检测器，在保持高灵敏度的同时实现合理的真正阳性率方面都存在困难。

发布时间: 2/11/2025

查看原文

使用机器学习发现流域尺度 rainfall-runoff 动态的简洁且物理可解释的表示

作者: Yuan-Heng Wang, Hoshin V. Gupta

arXiv:2412.04845v3 通告类型: 替换-交叉摘要: 尽管现代机器学习（ML）方法在实际世界中的预测性能非常出色，但由于它们相对易于解释，许多科学家仍然犹豫是否要放弃传统的物理概念（PC）方法。这种易解释性在决策过程中增加了可信度。在这个背景下，当前一个未被充分探索的ML方面是如何发展能够促进更好地理解系统功能的最少优化表示。无论通过何种方式实现，简洁的表示似乎能够更好地支持科学理解的进步。我们认为，基于设计上具有可解释性的计算单元进行的ML建模是必要的。本文继续探讨如何利用ML促进科学研究。我们以质量守恒感知器（MCP）作为基本的计算单元，在通用网络架构中探索使用观测数据构建动力系统模型的重要问题。我们显示，在集总流域模型中，可以使用一个具有上下文相关门控和节点之间信息共享的相对简洁的分布式状态多流路径网络来同时实现物理可解释性和预测性能，这表明基于MCP的建模可以在ML应用于地球科学研究中发挥重要作用。

发布时间: 2/11/2025

查看原文

跨注意力头位置模式可以与文本到图像生成模型中的human视觉概念对齐

作者: Jungwon Park, Jungmin Ko, Dongnam Byun, Jangwon Suh, Wonjong Rhee

arXiv:2412.02237v2 通知类型: replace-cross 摘要：最近的文本到图像扩散模型利用了交叉注意力层，这些层已被有效地应用于增强一系列视觉生成任务。然而，我们对交叉注意力层的理解仍然有限。在本研究中，我们通过构建与人类指定的视觉概念相匹配的头相关向量（HRVs）来引入一种机械解释能力方法，这些向量的长度等于交叉注意力头部的总数，每个元素表示对应头部对该视觉概念的重要性。为了验证HRVs作为可解释特征的有效性，我们开发了一种有序削弱分析，证明了其效果。此外，我们提出了一种概念强化方法和一种概念调整方法，并将它们应用于增强三种视觉生成任务。我们的结果显示，HRVs可以减少图像生成中多义词的误解，成功地修改了图像编辑中的五个具有挑战性的属性，并减轻了多概念生成中的灾难性忽略。总体而言，我们的工作提供了一种理解交叉注意力层的进步，并介绍了在头级别精细控制这些层的新方法。

发布时间: 2/11/2025

查看原文

CSP-AIT-Net：一种具有异步流入跟踪的对比学习增强时空图注意力框架，用于短时地铁OD流动预测

作者: Yichen Wang, Chengcheng Yu

arXiv:2412.01419v2 宣告类型: replace-cross 摘要：准确的起讫点（OD）乘客流量预测对于提高地铁系统效率、优化调度和改善乘客体验至关重要。然而，当前的模型往往无法有效地捕捉OD流量的异步出发特征，且未能充分利用流入和流出数据，这限制了它们的预测准确性。为了应对这些问题，我们提出了一种新颖的空间时间图注意力网络CSP-AIT-Net，该网络通过整合异步流入跟踪和先进的车站语义表示来增强OD流量预测。我们的框架通过首先预测流出量，然后使用空间时间图注意力机制分解OD流量，重塑了OD流量预测范式。为了提高计算效率，我们引入了一种遮罩机制，并提出了一种将流入和OD流量整合在一起并带有守恒约束的异步乘客流量图。此外，我们采用对比学习来提取地铁站的高维土地使用语义，丰富了乘客流动模式的上下文理解。对上海地铁系统的验证表明，与最先进的方法相比，这种方法在短期OD流量预测准确性上有所提升。这项工作有助于提高地铁运营效率、调度精度和整体系统安全性。

发布时间: 2/11/2025

查看原文

解释未解释的：揭示隐藏的相关性以提高可解释性

作者: Wen-Dong Jiang, Chih-Yung Chang, Show-Jane Yen, Diptendu Sinha Roy

arXiv:2412.01365v2 宣告类型: replace-cross 摘要：深度学习在处理和管理非结构化数据方面取得了显著的成功。然而，其“黑箱”性质对其造成了显著的限制，特别是在敏感的应用领域。虽然现有的可解释机器学习方法解决了一些这些问题，但它们往往未能充分考虑特征之间的相关性，并且对模型决策路径的评估也不充分。为了克服这些挑战，本文介绍了Real Explainer（RealExp），一种解释计算方法，将Shapley值解耦为个体特征的重要性及其相关性的重要性。通过结合特征相似性计算，RealExp通过精确量化个体特征的贡献及其相互作用来增强解释性，从而提供更可靠和细腻的解释。此外，本文还提出了一种新的解释性评价标准，旨在阐明深度学习模型的决策路径，超越传统的基于准确性的度量标准。在两个非结构化数据任务——图像分类和文本情感分析——上的实验验证表明，RealExp在解释性方面显著优于现有方法。案例研究进一步说明了其实用价值：在图像分类中，RealExp有助于从解释性角度选择适合特定任务的预训练模型；在文本分类中，它能够优化模型，并使用传统的词袋方法近似fine-tuned的GPT-Ada模型的性能。

发布时间: 2/11/2025

查看原文

空间和时间中的物体无关三维提升

作者: Christopher Fusco, Shin-Fang Ch'ng, Mosam Dabhi, Simon Lucey

arXiv:2412.01166v2 时空视角：类别无关的3D关键点提升摘要：我们从时空角度提出了对2D关键点进行类别无关的3D提升的方法。我们的方法不同于现有的最先进的方法：这些方法要么是物体无关的，但只能在单个帧上操作，要么能够建模时空依赖性，但只能处理单个物体类别。我们的方法基于两个核心原则。首先，可以借鉴相似物体的通用信息，在物体特定的训练数据较少时获得更好的性能。其次，包含时间上相近上下文的窗口在整个序列中实现一致性更有优势。这两个原则使我们能够在各种动物类别上的每帧和每序列指标上超越当前最先进的方法。最后，我们释放了一个新的合成数据集，其中包括各种动物类别的3D骨架和运动序列。

发布时间: 2/11/2025

查看原文

使用更新近似初始化是一种银弹级的极高效低秩微调方法

作者: Kaustubh Ponkshe, Raghav Singhal, Eduard Gorbunov, Alexey Tumanov, Samuel Horvath, Praneeth Vepakomma

arXiv:2411.19557v2 宣告类型: replace-cross 摘要: 低秩适配器已成为高效微调大型语言模型（LLMs）的标准方法，但它们通常无法达到完全微调的性能。我们提出了一种方法，即 LoRA Silver Bullet 或 LoRA-SB，该方法通过精心设计的初始化策略在低秩子空间内近似完全微调。我们理论上证明，LoRA-XS 的架构，在 B 和 A 之间插入一个可学习的 (r x r) 矩阵，而在其他矩阵保持不变的情况下，提供了这种近似所需的精确条件。我们利用其受约束的更新空间实现高秩梯度更新的最佳缩放，同时消除了超参数调优的需求。我们证明，我们的初始化提供了初始梯度的最佳低秩近似，并在整个训练过程中保留了更新方向。广泛的实验表明，我们的方法在数学推理、常识推理和语言理解任务中的性能超过了标准的 LoRA，同时使用的学习参数减少了 27 至 90 倍，并全面超越了 LoRA-XS。我们的研究结果表明，在低秩子空间内模拟完全微调是可能的，并且可以在不牺牲性能的情况下获得显著的效率提升。我们的代码可在 https://github.com/RaghavSinghal10/lora-sb 公开获取。

发布时间: 2/11/2025

查看原文