arXiv 论文列表

Transformer中 episodic 记忆的涌现：表征训练过程中注意力分数的时间结构变化

作者: Deven Mahesh Mistry, Anooshka Bajaj, Yash Aggarwal, Sahaj Singh Maini, Zoran Tiganj

arXiv:2502.06902v1 交叉公告类型摘要：我们研究了注意头和变压器输出中的上下文相关的时间偏见。使用认知科学的方法，我们分析了不同大小的GPT-2模型的注意分数和输出。在不同注意头上，我们观察到与人类事件记忆特征相一致的效果，包括时间连续性、首因效应和近因效应。变压器输出表现出一种针对上下文的序列回忆倾向。重要的是，在移除引导时间连续性效应的诱导头后，这种效应消失了，诱导头是时间连续性效应的驱动因素。我们的发现为理解变压器在上下文学习过程中如何按时间组织信息提供了见解，揭示了它们与人类记忆和学习的相似之处和差异。

发布时间: 2/12/2025

查看原文

让自回归模型填充遮掩令牌

作者: Daniel Israel, Aditya Grover, Guy Van den Broeck

arXiv:2502.06901v1 类型: cross 摘要：历史上，大型语言模型（LLMs）通常是使用自回归（AR）或掩码语言建模（MLM）目标进行训练的，近年来，自回归模型在其中占主导地位。然而，自回归模型本质上不能执行掩码填充功能，即预测过去和未来上下文之间的掩码令牌的能力。相比之下，掩码语言建模模型在训练和推理过程中存在固有的计算效率低下问题，这阻碍了它们的扩展性。这项工作引入了MARIA（Masked and Autoregressive Infilling Architecture，掩码和自回归填充架构），这是一种新颖的方法，结合了两种范式的优点以实现最先进的掩码填充性能。MARIA通过训练一个线性解码器来结合预训练的MLM模型和AR模型，该解码器将它们的拼接隐藏状态作为输入。这种最小的修改使AR模型能够执行填充操作，同时保留其基于KV缓存实现更快推理的固有优势。我们的结果表明，与现有的方法，特别是离散扩散模型，相比，MARIA在掩码填充任务中显著提高了性能。

发布时间: 2/12/2025

查看原文

一种社会技术方法在知识管理（KM）中的应用

作者: Leoncio Jimenez

arXiv:2502.06899v1 社会技术类型：交叉摘要：本文提出了一种知识管理的社会技术框架。这种社会技术视角的知识管理允许：（1）将知识管理从商业关注中分离出来；（2）区分不同的知识管理技术；（3）质疑与知识管理的社会和技术组件关联的范式。正是这最后一点是本文发展的重点，以便识别知识管理的一般机制。具体而言，社会方面通过组织视角、管理视角和生物视角的知识管理来解释。相比之下，技术方面则是通过知识与技能工程视角的知识管理来描述。这些视角也引导我们提供一个组织、管理与生物视角的知识管理之间的比较表。

发布时间: 2/12/2025

查看原文

大型语言模型在文件中定位漏洞可能會“迷失在结尾”

作者: Francesco Sovrano, Adam Bauer, Alberto Bacchelli

arXiv:2502.06898v1 类别：交叉学科摘要：近年来，人工智能的进步使得处理更大输入成为可能，这促使日常软件开发者越来越多地依赖基于聊天的大型语言模型（LLMs），如GPT-3.5和GPT-4，以在整个文件中检测漏洞，而不仅仅在函数内部。这一新的开发实践要求研究人员急需调查常用LLMs是否能有效地分析大型文件输入，以便为软件开发者和工程师提供有关这一新兴技术趋势的优缺点的及时见解。因此，本文旨在评估几种最先进的基于聊天的LLMs，包括GPT模型，在检测文件漏洞方面的有效性。我们进行了成本高昂的研究，探究LLMs性能在不同漏洞类型、输入大小和文件内漏洞位置方面如何变化。为了使我们的研究具有足够的统计功效，我们只能重点关注三种最常见的（同时也是最危险的）漏洞：跨站脚本攻击（XSS）、SQL注入和路径遍历。我们的研究结果表明，LLMs检测这些漏洞的有效性强烈地受漏洞位置和输入整体大小的影响。具体来说，无论漏洞类型如何，当检测位于较大文件末尾的漏洞时，LLMs往往会显著（p < .05）表现不佳，我们称之为“末尾迷失”效应。最后，为了进一步支持软件开发者和实践者，我们也探讨了这些LLMs的最佳输入大小，并提出了一个简单的策略来识别它，该策略可以应用于其他模型和漏洞类型。最终，我们展示了调整输入大小可以显著提高基于LLM的漏洞检测能力，所有模型的平均召回率提高超过37%。

发布时间: 2/12/2025

查看原文

PyPotteryInk：从素描到出版级考古图的一步扩散模型

作者: Lorenzo Cardarelli

arXiv:2502.06897v1 类型: cross 摘要: 考古陶器文档传统上需要耗时的手动过程，将铅笔草图转换为可供出版的墨迹图。我介绍了 PyPotteryInk，这是一个开源的自动化流水线，使用单步扩散模型将考古陶器草图转换为标准化的出版级图纸。该系统基于修改过的 img2img-turbo 架构，在单次前向传递中处理图纸，同时保留关键形态细节并维持考古学文档标准和分析价值。模型采用高效的基于补丁的方法，具有动态重叠，能够在输入图纸大小变化的情况下产生高分辨率输出。我通过一个意大利史前陶器图纸的数据集展示了该方法的有效性，该方法能够捕捉到精细细节如装饰图案以及结构元素如器皿轮廓或握持元素。专家评估证实，生成的图纸符合出版标准，且显著减少了每张图纸的处理时间，从几小时缩短到几秒钟。该模型可以通过少量训练数据微调以适应不同的考古学背景，使其能够在各种陶器文档风格中具有通用性。提供了预训练模型、Python 库和全面的文档，以促进考古研究社区的采用。

发布时间: 2/12/2025

查看原文

AI驱动的HSI：多模态、融合、挑战及深度学习革命

作者: David S. Bhatti, Yougin Choi, Rahman S M Wahidur, Maleeka Bakhtawar, Sumin Kim, Surin Lee, Yongtae Lee, Heung-No Lee

arXiv:2502.06894v1 交叉公告类型摘要：高光谱成像（HSI）捕获空间和光谱数据，使分析传统系统无法观察到的特征成为可能。该技术在天气监测、食品质量控制、防伪检测、医疗诊断以及防御、农业和工业自动化等多个领域发挥着至关重要的作用。HSI 随着光谱分辨率的提高、小型化和计算方法的进步而不断进步。本研究对HSI，其应用、数据融合面临的挑战，以及深度学习模型在处理HSI数据中的作用进行了概述。我们讨论了将多模态HSI与AI，尤其是深度学习相结合，如何提高分类精度和操作效率。深度学习在特征提取、变化检测、去噪分解、降维、土地覆盖分类、数据增强、光谱构建和超分辨率等HSI分析领域起到了重要作用。一个新兴趋势是将高光谱相机与大型语言模型（LLMs）集成，被称为高脑LLMs，这使得低可见度碰撞检测和面部防伪等高级应用的开发成为可能。我们还介绍了HSI行业的关键参与者、其复合年增长率以及不断增长的工业显著性。目的是为技术受众和技术受众提供深刻的见解，涵盖HSI的图像、趋势和未来方向，同时提供有关HSI数据集和软件库的有价值信息。

发布时间: 2/12/2025

查看原文

使用 fuzzed 随机化平滑技术验证语言模型的鲁棒性：一种针对后门攻击的高效防御方法

作者: Bowei He, Lihao Yin, Hui-Ling Zhen, Jianping Zhang, Lanqing Hong, Mingxuan Yuan, Chen Ma

arXiv:2502.06892v1 安全类型：交叉摘要：预训练语言模型（PLMs）的广泛应用使其暴露在文本后门攻击之下，特别是那些在预训练阶段植入的攻击。这些攻击对高可靠性的应用程序构成了重大风险，因为它们可以偷偷影响多个下游任务。尽管认证针对这些威胁的鲁棒性至关重要，但现有防御措施难以应对文本数据的高维度和相互依赖性，以及无法访问原始受污染的预训练数据。为了解决这些挑战，我们介绍了**F**uzzed **R**andomized **S**moothing (**FRS**)，这是一种新的方法，用于高效地认证语言模型在后门攻击下的鲁棒性。FRS将软件鲁棒性认证技术与双阶段模型参数平滑相结合，使用蒙特卡罗树搜索进行主动模糊测试，在Damerau-Levenshtein空间内识别易受攻击的文本段落。这使得可以针对特定文本进行高效随机化，而在进行模型平滑时无需访问受污染的训练数据。我们的理论分析表明，FRS在鲁棒性认证范围方面优于现有方法。广泛的数据集、模型配置和攻击策略实验验证了FRS在防御效率、准确性和鲁棒性方面具有优势。

发布时间: 2/12/2025

查看原文

药物-药物相互作用预测中的大规模语言模型：一项全面比较

作者: Gabriele De Vito, Filomena Ferrucci, Athanasios Angelakis

arXiv:2502.06890v1 交叉类型摘要：现代治疗方案中不断增加的药物组合需要可靠的方法来预测药物-药物相互作用（DDIs）。虽然大型语言模型（LLMs）已经在各个领域引发了革命，但在制药研究，特别是DDI预测方面的潜力仍然鲜有探讨。本研究深入探讨了LLMs在预测DDI方面的能力，通过独特处理分子结构（SMILES）、目标生物体和基因交互数据作为最新的DrugBank数据集中的原始文本输入。我们评估了18种不同的LLMs，包括专有模型（GPT-4、Claude、Gemini）和开源变体（参数从15亿到72亿不等），首先评估了它们在DDI预测中的零样本能力。然后，我们对选定的模型（GPT-4、Phi-3.5 2.7B、Qwen-2.5 3B、Gemma-2 9B和Deepseek R1精简的Qwen 1.5B）进行了微调，以优化其性能。我们全面的评估框架包括跨13个外部DDI数据集的验证，与传统的如L2正则化逻辑回归方法进行比较。微调后的LLMs表现出更优的性能，其中Phi-3.5 2.7B在DDI预测中的敏感性达到0.978，平衡数据集（50%阳性病例，50%阴性病例）的准确率达到0.919。这一结果在零样本预测和现有的最先进的机器学习方法上都有所提升。我们的分析表明，LLMs能够有效地捕捉复杂的分子相互作用模式，并能够在药物配对共同靶向同一基因的情况下发挥作用，使它们成为制药研究和临床应用中的宝贵工具。

发布时间: 2/12/2025

查看原文

克洛斯克: 通过专家意识多批处理管道的高效专家混合推断

作者: Zhiyuan Fang, Yuegui Huang, Zicong Hong, Yufeng Lyu, Wuhui Chen, Yue Yu, Fan Yu, Zibin Zheng

arXiv:2502.06888v1 宣告类型: cross 摘要: 专家混合（MoE）因其独特的稀疏结构，能够在不显著增加计算成本的情况下将语言模型扩展到万亿参数级别。然而，巨大的参数量为推理带来了挑战，因为GPU内存的增长无法跟上参数的增长速度。尽管卸载技术利用CPU和磁盘的内存，并行化I/O和计算以提高效率，但在MoE模型中每个专家的计算量通常少于I/O，导致管道中出现大量瓶颈。因此，我们提出了Klotski，这是一种高效的MoE推理引擎，通过一种新颖的专家感知多批处理管道范式显著减少了管道中的瓶颈。所提出的范式使用批处理处理来延长当前层的计算时间，使其与下一层的加载时间重叠。尽管这一理念已被成功应用于密集模型中，但在MoE中更多的批次可能会激活更多的专家，导致更长的加载时间和更多的瓶颈。因此，与传统方法不同，我们根据不同批次数量下专家异构的计算和I/O需求及其激活模式来协调它们的推理顺序，以平衡计算和I/O时间，从而最小化瓶颈。此外，为了适应不同的硬件环境和模型，我们设计了一种感知约束的I/O-计算规划器和一种意识相关性专家预取器，以生成一个最小化管道瓶颈的调度方案。实验结果表明，Klotski在吞吐量-延迟折衷方面优于最先进的技术，吞吐量提高了高达85.12倍。

发布时间: 2/12/2025

查看原文

基于梯度的方法用于格量化器的融合

作者: Liyuan Zhang, Hanzhong Cao, Jiaheng Li, Minyang Yu

arXiv:2502.06887v1 类型: cross 摘要: 在实际应用中，格量化器利用离散的格点来近似格中的任意点。有效的格量化器显著提高了这些近似的准确性和效率。在高维格量化背景下，先前的工作提出了利用低维最优格量化器并解决了正交拼接中确定最优长度比的挑战。值得注意的是，固定长度比和正交性在结合低维格时导致次优结果。在此基础上，另一种方法使用梯度下降来识别最优格，这启发我们探索使用神经网络来发现优于正交拼接方法获得的矩阵。我们提出了两种新的方法来解决这个问题：Household 算法和 Matrix Exp 算法。我们的结果表明，这两种方法，在维度为 13, 15, 17 至 19, 21 和 22 的情况下，都能够改进格量化器。此外，Matrix Exp 算法在高维环境中显示出更高的有效性。

发布时间: 2/12/2025

查看原文