arXiv 论文列表

受生物地球化学指导的神经网络（BINN）以提高模型预测准确性和增进对土壤有机碳的科学理解

作者: Haodi Xu, Joshua Fan, Feng Tao, Lifen Jiang, Fengqi You, Benjamin Z. Houlton, Ying Sun, Carla P. Gomes, Yiqi Luo

arXiv:2502.00672v2 公告类型: replace-cross 摘要：大数据和人工智能（AI）的迅速发展为增强我们对全球碳循环和其他生物地球化学过程的理解提供了前所未有的机遇。然而，从大数据中提取机理知识仍然是一个挑战。在这里，我们开发了一个生物地球化学指导神经网络（BINN），将向量化的基于过程的土壤碳循环模型（即社区土地模型版本5，CLM5）无缝集成到神经网络（NN）结构中，以从大数据中检验控制土壤有机碳（SOC）储存的机制。BINN在参数恢复实验中从合成数据中检索生物地球化学参数值显示出高精度。我们使用BINN从美国本土地区25,925个观测到的SOC剖面预测了六个主要调控土壤碳循环（或过程基模型中的组件）的过程，并将它们与使用基于贝叶斯推断的过程导向深度学习和数据驱动建模（PRODA）方法（Tao等，2020；2023）之前检索到的同一过程进行了比较。两种方法检索到的过程的空间模式一致性较高，平均相关系数为0.81，证实了BINN从大数据中提取机理知识的能力。此外，在BINN中将神经网络与过程基模型的结合将计算效率提高了50多倍。我们得出结论，BINN是一种变革性的工具，利用了AI和过程基模型的力量，促进了新的科学发现，同时提高了地球系统模型的可解释性和准确性。

发布时间: 2/7/2025

查看原文

Strassen Attention：基于新Lower Bound方法解锁Transformer的组合能力

作者: Alexander Kozachinskiy, Felipe Urrutia, Hector Jimenez, Tomasz Steifer, Germ\'an Pizarro, Mat\'ias Fuentes, Francisco Meza, Cristian B. Calderon, Crist\'obal Rojas

arXiv:2501.19215v2 Announce Type: replace-cross 摘要：我们提出了一种新的方法来评估Transformer的理论极限，使我们能够证明一维软最大Transformer在无限精度情况下的一系列下限。我们为三种需要高级推理的任务建立了这些界限。第一个任务，Match3（Sanford et al., 2023），要求查看所有三元组的位置。第二个和第三个任务涉及基于组合性的推理：一个是函数的组合（Peng et al., 2024），另一个是二元关系的组合。我们正式证明了一维软最大Transformer无法解决这些任务中的任何一个。为了克服这些限制，我们引入了Strassen注意力机制，并证明了通过这种方法，一维Transformer原则上可以解决所有这些任务。我们还展示了这种机制具有亚立方时间复杂度，使其比以前提出的类似机制（如高阶注意力，Sanford et al., 2023）更具可扩展性。为了补充我们的理论发现，我们实验研究了Strassen注意力机制，并将其与标准（Vaswani et al., 2017）、高阶注意力（Sanford et al., 2023）以及三角注意力（Bergen et al., 2021）进行了比较。我们的结果有助于解开这些注意力机制的异同，突显了它们的优势和局限性。尤其是，Strassen注意力机制在所有任务中显著优于标准注意力机制。总体而言，理解理论限制可以指导研究朝着更具可扩展性的注意力机制发展，以提高Transformer的推理能力。

发布时间: 2/7/2025

查看原文

复杂性中的复杂性：通过结构、颜色和惊喜理解视觉复杂性

作者: Karahan Sar{\i}ta\c{s}, Peter Dayan, Tingke Shen, Surabhi S Nath

arXiv:2501.15890v2 宣布类型: replace-cross 摘要：理解人类对视觉复杂性的感知在视觉认知中至关重要。最近（Shen等，2024）提出了一种可解释的分割模型，该模型能够准确地跨多个数据集预测复杂性，支持复杂性可以简单解释的观点。在本工作中，我们研究了他们模型未能捕捉到结构、颜色和意外贡献到复杂性的情况。为此，我们提出了多尺度Sobel梯度来衡量空间强度变化，多尺度唯一颜色来衡量多个尺度上的颜色丰富度，以及使用大语言模型生成的惊奇评分。我们在这项工作中测试了这些特征在现有基准和包含来自Visual Genome的令人惊讶图像的新数据集上的效果。我们的实验表明，准确建模复杂性并非像之前认为的那么简单，需要额外的感知和语义因素来解决数据集偏差。因此，我们的结果提供了更深入地了解人类如何评估视觉复杂性的见解。

发布时间: 2/7/2025

查看原文

K-COMP：带有知识注入压缩器的检索增强医疗领域问题回答

作者: Jeonghun Cho, Gary Geunbae Lee

arXiv:2501.13567v2 通知类型: 替换-交叉摘要：检索增强的问答（QA）通过整合外部信息，从而提高缺乏领域知识的阅读器模型的问答准确性。然而，闭域中检索到的文档需要很高的专业知识，因此阅读器模型可能难以完全理解文档文本。此外，检索到的文档包含数千个标记，其中一些与问题无关。因此，文档中包含了一些不准确的信息，这可能导致阅读器模型对段落产生不信任，并可能导致产生幻觉。为了解决这些问题，我们提出了K-comp（知识注入压缩器），它提供了正确回答所需的知识。压缩器在压缩检索到的段落后自动生成必要的先验知识，以促进答案过程。随后，段落按自回归方式压缩，生成的知识被整合到压缩过程中。这一过程确保了问题意图与压缩后的上下文之间的对齐。通过增强先验知识和简洁的上下文，阅读器模型能够被引导向相关答案，并信任该上下文。

发布时间: 2/7/2025

查看原文

MambaQuant：基于方差对齐旋转方法的Mamba家族量化

作者: Zukang Xu, Yuxuan Yue, Xing Hu, Zhihang Yuan, Zixu Jiang, Zhixuan Chen, Jiangyong Yu, Chen Xu, Sifan Zhou, Dawei Yang

arXiv:2501.13484v2 Announce Type: replace-cross 摘要：Mamba 是一种高效的序列模型，其性能可比肩 Transformer，并且在多种任务中作为基础架构显示了巨大的潜力。量化通常被用于神经网络以减小模型大小和降低计算延迟。然而，将量化应用于 Mamba 仍然处于探索阶段，目前对于 CNN 和 Transformer 模型有效的量化方法似乎对于 Mamba 模型来说并不充分（例如，Quarot 在 Vim-T$^\dagger$ 上的准确率下降了 21% 即便在 W8A8 的情况下）。我们率先探索了这一问题，并识别出几个关键挑战。首先，门控投影、输出投影以及矩阵乘法中存在显著的异常值。其次，Mamba 的独特并行扫描进一步加剧了这些异常值，导致数据分布不均且存在厚尾现象。第三，即使应用了 Hadamard 变换，权重和激活值的通道间方差仍然不一致。为了解决这些问题，我们提出了 MambaQuant，这是一种后训练量化 (PTQ) 框架，包括：1) 增强旋转的Karhunen-Loeve 变换 (KLT)，使旋转矩阵能够适应多种通道分布。2) 平滑融合旋转，它可以平衡通道间的方差并将额外参数合并到模型权重中。实验表明，MambaQuant 可以将 Mamba 基础的视觉和语言任务中的权重和激活值量化为 8 位，且准确率损失低于 1%。据我们所知，MambaQuant 是针对 Mamba 家族的第一个全面的 PTQ 设计，为未来在 Mamba 中的应用进一步奠定了基础。

发布时间: 2/7/2025

查看原文

SplitQuant：层划分用于低位宽神经网络量化

作者: Jaewoo Song, Fangzhen Lin

arXiv:2501.12428v2 宣告类型: replace-cross 摘要: 深度神经网络（DNNs）的量化过程是将DNN的参数值从原始数据类型映射到较低精度的数据类型，以减少模型大小并加快推理速度。量化通常会将不同原始值映射到一个量化值，因为原始值的范围大于量化值的范围。这会导致量化DNN的准确率下降。离群值是量化分辨率下降的主要原因之一，因为它们扩大了原始值的范围。为了解决这个问题，通常使用百分位数方法来裁剪离群值。然而，裁剪离群值另一个问题是会移除DNN中的重要和强信号。本文提出了SplitQuant，以同时保留离群值并提高量化分辨率。SplitQuant通过将每个可量化的层分割成三个数学上等价的层，并应用不同的缩放因子来缩小原始值的范围，从而减轻离群值的影响。尤其是，权重和偏置被聚类为下、中、上三个集群以优化分割。通过使用SplitQuant预处理DNNs，量化算法可以取得更好的结果。将SplitQuant应用到两个BERT-Tiny模型上，分别提高了INT2量化的准确率3.3个百分点和2.1个百分点，达到了与原FP32模型相当的准确率。

发布时间: 2/7/2025

查看原文

双向深度多模态神经网络：时空预测的双向深度学习架构

作者: Sina Ehsani, Fenglian Pan, Qingpei Hu, Jian Liu

arXiv:2501.08411v2 宣告类型：替换交叉摘要：在城市交通和天气模式等动态系统中准确预测时空（ST）信息是一个至关重要的但也极具挑战性的问题。这种复杂性源于空间邻近性和时间相关性的交织影响，其中复杂模式中同时存在长期趋势和短期波动。现有的方法，包括传统的统计方法和传统的神经网络，可能会因为缺乏一个同时整合变量时间深度信息和保持空间上下文的有效机制而导致不准确的结果，从而在全面的长期历史分析和对短期新信息的响应之间产生权衡。为了解决这一问题，本文提出了一种双向深度调制的双层多模态神经网络（BDMNN），它能够全面理解长期季节性和短期波动，并适应复杂的时空上下文。通过实世界公开数据的实际案例研究，实验结果展示出显著的预测准确性改进，相较于最先进的基准，在城市交通预测中的平均平方误差降低了12%，在降雨量预报中的准确性提高了15%，而无需额外的计算资源。

发布时间: 2/7/2025

查看原文

检测、检索与解释统一：基于知识图和GAT的暴力检测系统

作者: Wen-Dong Jiang, Chih-Yung Chang, Diptendu Sinha Roy

arXiv:2501.06224v3 通知类型: 替换-交叉摘要：最近，使用统一多模态模型开发的暴力检测系统已经取得了显著的成功并引起了广泛的关注。然而，这些系统主要面临着两个关键挑战：作为黑盒模型的缺乏解释性和功能有限，仅提供分类或检索能力。为了解决这些挑战，本文提出了一种新的可解释暴力检测系统，称之为三位一体（TIO）系统。TIO系统将知识图（KG）和图注意网络（GAT）集成在一起，提供三种核心功能：检测、检索和解释。具体而言，该系统处理包含潜在暴力行为的视频帧以及由大语言模型（LLM）生成的文本描述。系统使用ImageBind生成高维嵌入以构建知识图，使用GAT进行推理，并使用轻量级时间序列模块提取视频嵌入特征。最后一步将分类器和检索器连接起来，以实现多功能输出。知识图的可解释性使系统能够验证每个输出背后的推理过程。此外，本文还介绍了几种轻量级方法来减少TIO系统的资源消耗并提高其效率。在XD-Violence和UCF-Crime数据集上进行的广泛实验验证了所提出系统的有效性。进一步的案例研究揭示了一种有趣的现象：随着旁观者数量的增加，暴力行为的出现频率似乎会降低。

发布时间: 2/7/2025

查看原文

高效利用EPD分解服务大型多模态模型

作者: Gursimran Singh, Xinglu Wang, Yifan Hu, Timothy Yu, Linzi Xing, Wei Jiang, Zhefeng Wang, Xiaolong Bai, Yi Li, Ying Xiong, Yong Zhang, Zhenan Fan

arXiv:2501.05460v2 通知类型: 替换-交叉摘要: 大型多模态模型（LMMs）通过处理多种输入，如图像、音频和视频，扩展了大型语言模型（LLMs），但增加了多模态编码阶段，这既增加了计算成本，也增加了内存成本。这一步骤对关键的服务水平目标（SLOs）如首个标记的时间（TTFT）和端到端吞吐量（E2ETP）产生了负面影响。我们引入了多模态编码-填充-解码（EPD）分解框架，这是一种新颖的方法，该方法将编码、填充和解码阶段分离到专门的资源上。与当前将编码和填充捆绑在一起的系统不同，我们的方法将这些步骤分离，解锁了新的机会和优化。这包括一种新的机制来缓存多媒体标记以提高传输效率，一种在请求内部并行化编码负载的新方法，一个模块来为分解的服务找到最优资源分配，以及一种新的角色转换方法以应对不断变化的工作负载特性。使用流行的LMMs进行的实验评估显示，内存效率大幅提高（最多降低至之前的1/15），批量大小扩大（最多22倍），每请求更多图像（最多10倍），以及更大的键值缓存（约2.2倍）。此外，与不进行分解的系统相比，其在延迟指标（TTFT最多减少71%）和端到端吞吐量（最多减少57%）方面也取得了显著改进。

发布时间: 2/7/2025

查看原文

OneKE: 一个基于模式指导的大语言模型代理的知识提取系统（容器化）

作者: Yujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen

arXiv:2412.20005v2 宣告类型: replace-cross 摘要：我们介绍了OneKE，这是一个容器化的以模式为指导的知识提取系统，可以从网络和原始PDF书籍中提取知识，并支持各种领域（科学、新闻等）。具体来说，我们设计了OneKE，采用了多个代理和一个配置的知识库。不同的代理执行各自的职责，使得各种提取场景得到支持。配置的知识库促进了模式配置、错误案例调试和修正，进一步提高了性能。在基准数据集上的实证评估表明OneKE的有效性，而案例研究进一步阐明了其在多个领域、多种任务中的适应性，突显了其广泛应用场景的潜力。我们已经在 https://github.com/zjunlp/OneKE 开放了代码，并在 http://oneke.openkg.cn/demo.mp4 发布了一个视频。

发布时间: 2/7/2025

查看原文