arXiv 论文列表

作者: Lukas Mielczarek

句法分析是自然语言处理中必不可少的环节，其中成分结构是广泛使用的语法描述方式之一。传统的成分结构观认为成分由相邻的词语组成，但这给分析具有非局部依赖关系的语法带来了挑战，这种现象在德语等语言中很常见。因此，在德语的 NeGra 和 TIGER 以及英语的 DPTB 等许多树库中，长距离依赖关系由交叉边表示。各种语法形式主义被用来描述不连续树，但这些形式主义通常在解析时具有很高的时间复杂度。基于转换的解析旨在通过消除对显式语法的需求来降低这一因素。相反，神经网络在大型标注语料库上使用监督学习，根据原始文本输入来训练生成树。Coavoux 和 Cohen (2019) 提出的一个关于无栈基于转换的解析器的优雅方案成功地允许在最坏情况下二次时间内推导出句子上的任何不连续成分树。这项工作的目的是探索将超级标签信息引入基于转换的不连续成分解析。在像 CCG (Steedman, 1989) 这样的词汇化语法形式主义中，信息丰富的类别被分配给句子中的词语，并作为构建句子语法的基础。这些超级标签指示词语的结构作用以及与周围词语的句法关系。该研究考察了通过使用专用超级标签器作为神经解析器（管道）的额外输入，以及通过联合训练用于解析和超级标签的神经模型（多任务），来整合超级标签信息。除了 CCG 之外，还将比较其他几个框架（LTAG-spinal，LCFRS）和序列标注任务（分块，依存句法分析），以评估它们作为解析辅助任务的适用性。

发布时间: 10/14/2024

查看原文

联邦神经网络的解锁：自包含计算优化实现

作者: Konstantin Burlachenko, Peter Richt\'arik

联邦学习 (FL) 是一种新兴的范式，它使智能代理能够以分布式的方式协作训练机器学习 (ML) 模型，从而无需共享其本地数据。最近的工作 (arXiv:2106.02969) 引入了一系列联邦牛顿学习 (FedNL) 算法，标志着将二阶方法应用于 FL 和大规模优化的重要一步。然而，参考 FedNL 原型存在三个严重的实际缺陷：(i) 它需要 4.8 小时才能在服务器级工作站上启动一个实验；(ii) 原型只模拟多节点设置；(iii) 将原型集成到资源受限的应用程序中具有挑战性。为了弥合理论与实践之间的差距，我们为单节点和多节点设置提供了 FedNL、FedNL-LS、FedNL-PP 的自包含实现。我们的工作解决了上述问题，并将挂钟时间缩短了 x1000。凭借此 FedNL，在单节点 - CVXPY (arXiv:1603.00943) 和多节点 - Apache Spark (arXiv:1505.06807)、Ray/Scikit-Learn (arXiv:1712.05889) 上训练逻辑回归时，其性能优于其他方法。最后，我们为 FedNL 提出了两个面向实践的压缩器——自适应 TopLEK 和缓存感知 RandSeqK，它们满足了 FedNL 的理论。

发布时间: 10/14/2024

查看原文

基于架构无关图变换增强图神经网络：系统性分析

作者: Zhifei Li, Gerrit Gro{\ss}mann, Verena Wolf

近年来，各种各样的图神经网络（GNN）架构层出不穷，每种架构都有其自身的优势、劣势和复杂性。为了提高 GNN 的性能，人们采用了各种技术，包括重连、提升和使用中心度值对节点进行标注作为预处理步骤。然而，目前还没有公认的最佳实践，而且架构和预处理对性能的影响往往不透明。本研究系统地探讨了各种图变换作为预处理步骤对标准数据集上常用 GNN 架构性能的影响。模型的评估基于其区分非同构图的能力，称为表达能力。我们的研究结果表明，某些变换，特别是那些用中心度度量增强节点特征的变换，始终能提高表达能力。然而，这些收益伴随着权衡，例如，图编码方法虽然提高了表达能力，但也引入了广泛使用的 Python 包中的数值误差。此外，我们观察到，这些预处理技术在处理涉及 3-WL 和 4-WL 不可区分图的复杂任务时，效果有限。

发布时间: 10/14/2024

查看原文

Hespi：一种自动从植物标本馆标本单中提取信息的管道

作者: Robert Turnbull, Emily Fitzgerald, Karen Thompson, Joanne L. Birch

生物、环境、气候和保护科学领域对与标本相关的生物多样性数据有着迫切的需求。为了消除依赖人工转录这些数据所带来的瓶颈，需要加快从标本图像中提取数据的速度。我们应用了先进的计算机视觉技术，开发了“Hespi”（HErbarium Specimen sheet PIpeline），它可以从数字化标本图像中提取草本标本机构标签上的预目录数据子集。该流程整合了两个目标检测模型：第一个模型检测文本标签周围的边界框，第二个模型检测主要机构标签上的文本数据字段周围的边界框。该流程将文本标签分类为印刷、打字、手写或组合，并应用光学字符识别（OCR）和手写文本识别（HTR）进行数据提取。然后，识别出的文本会根据权威的分类单元名称数据库进行校正。提取的文本还会借助多模态大型语言模型（LLM）进行校正。Hespi 能够准确地检测和提取来自国际标本馆的标本图像等测试数据集的文本。该流程的组件是模块化的，用户可以使用自己的数据训练自己的模型，并将其替换为提供的模型。

发布时间: 10/14/2024

查看原文

大型语言模型中韩语法律语言理解的实用基准开发

作者: Yeeun Kim, Young Rok Choi, Eunkyung Choi, Jinhwan Choi, Hai Jin Park, Wonseok Hwang

大型语言模型 (LLMs) 在法律领域展现出非凡的性能，GPT-4 甚至通过了美国统一律师考试。然而，它们在非标准化任务和非英语语言任务中的有效性仍然有限。这强调了在应用之前，需要对每个法律体系中的 LLM 进行谨慎评估。在这里，我们介绍了 KBL，一个用于评估 LLM 韩国法律语言理解能力的基准，包括 (1) 7 个法律知识任务 (510 个示例)，(2) 4 个法律推理任务 (288 个示例)，以及 (3) 韩国律师考试 (4 个领域，53 个任务，2,510 个示例)。前两个数据集是在与律师密切合作下开发的，以在认证的环境中评估 LLM 在实际场景中的表现。此外，考虑到法律从业人员经常使用大量的法律文件进行研究，我们在封闭式环境中评估 LLM，在这种环境中，LLM 仅依赖于内部知识，以及使用韩国法规和判例库的检索增强生成 (RAG) 环境。结果表明，LLM 在韩国法律语言理解能力方面仍有很大的提升空间和机会。

发布时间: 10/14/2024

查看原文

从N元语法到预训练多语言模型的语言识别

作者: Thapelo Sindane, Vukosi Marivate

本文研究了 N-gram 模型和大型预训练多语言模型在 11 种南非语言的语言识别 (LID) 中的应用。对于 N-gram 模型，本研究表明，有效的数据量选择对于建立目标语言的有效频率分布至关重要，这些频率分布可以有效地对每种语言进行建模，从而提高语言排名。对于预训练的多语言模型，我们进行了广泛的实验，涵盖了一组多样化的大规模预训练多语言 (PLM) 模型——mBERT、RemBERT、XLM-r 和非洲中心多语言模型——AfriBERTa、Afro-XLMr、AfroLM 和 Serengeti。我们进一步将这些模型与现有的大型语言识别工具（Compact Language Detector v3 (CLD V3)、AfroLID、GlotLID 和 OpenLID）进行比较，以突出强调基于重点的 LID 的重要性。从这些比较中，我们发现 Serengeti 在所有模型中（从 N-gram 到 Transformers）表现出色。此外，我们提出了一种基于轻量级 BERT 的 LID 模型 (za_BERT_lid)，该模型使用 NHCLT + Vukzenzele 语料库进行训练，其性能与我们表现最好的非洲中心模型相当。

发布时间: 10/14/2024

查看原文

关于更高 RoPE 注意力维度的词元距离建模能力

作者: Xiangyu Hong, Che Jiang, Biqing Qi, Fandong Meng, Mo Yu, Bowen Zhou, Jie Zhou

基于旋转位置嵌入（RoPE）的长度外推算法在扩展语言模型的上下文长度方面取得了令人鼓舞的成果。然而，理解位置嵌入如何捕捉更长范围的上下文信息仍然是一个谜。基于不同维度对应 RoPE 编码中不同变化频率的直觉，我们进行了维度层面的分析，以研究注意力头的隐藏维度与其在捕捉长距离依赖性方面的贡献之间的相关性。利用我们的相关性指标，我们从各种长度外推模型中识别出一种特定类型的注意力头，我们将其命名为位置头。这些头表现出对长距离信息交互的强烈关注，并在长输入处理中发挥着关键作用，正如我们的消融研究所证明的那样。我们进一步证明了长度外推效率与这些头的更高维注意力分配扩展之间的相关性。位置头的识别为未来长文本理解研究提供了见解。

发布时间: 10/14/2024

查看原文

链式修复：多任务图像修复模型是零样本逐步通用图像修复器

作者: Jin Cao, Deyu Meng, Xiangyong Cao

尽管以往的研究通常针对孤立的退化类型，但最近的研究越来越关注解决复合退化问题，而复合退化涉及多种不同孤立退化的复杂相互作用。认识到可能的退化组合数量呈指数级增长带来的挑战，我们提出了通用图像恢复 (UIR)，这是一种新的任务设置，要求模型在一定退化基础上进行训练，然后以零样本的方式消除这些基础可能组成的任何退化。受链式思维启发，该思维提示大型语言模型逐步解决问题，我们提出了链式恢复 (CoR)，它指示模型逐步消除未知的复合退化。通过将简单的退化鉴别器集成到预训练的多任务模型中，CoR 简化了模型每一步消除一个退化基础的过程，并持续进行此过程，直到图像从未知的复合退化中完全恢复。大量实验表明，CoR 在消除复合退化方面显著提高了模型性能，其结果可与在所有退化上训练的最先进 (SoTA) 方法相媲美甚至超过它们。代码将在 https://github.com/toummHus/Chain-of-Restoration 上发布。

发布时间: 10/14/2024

查看原文

智能预训练：模型无关和数据集无关的运动预测表示学习

作者: Yang Zhou, Hao Shao, Letian Wang, Steven L. Waslander, Hongsheng Li, Yu Liu

在动态的人机混合环境中，预测周围代理的未来运动对于自动驾驶汽车（AV）的安全运行至关重要。然而，大规模驾驶数据集的稀缺阻碍了鲁棒且可泛化的运动预测模型的开发，限制了它们捕捉复杂交互和道路几何形状的能力。受自然语言处理（NLP）和计算机视觉（CV）最新进展的启发，自监督学习（SSL）在运动预测领域获得了极大关注，用于学习丰富且可迁移的场景表示。尽管如此，现有的运动预测预训练方法主要集中在特定的模型架构和单一数据集上，限制了它们的扩展性和泛化能力。为了应对这些挑战，我们提出了 SmartPretrain，这是一个通用的可扩展的 SSL 框架，用于运动预测，该框架既与模型无关，也与数据集无关。我们的方法整合了对比和重建 SSL，利用生成式和判别式范式的优势，有效地表示时空演化和交互，而无需施加架构约束。此外，SmartPretrain 采用了一种与数据集无关的场景采样策略，整合了多个数据集，增强了数据量、多样性和鲁棒性。在多个数据集上的大量实验表明，SmartPretrain 始终如一地提高了最先进预测模型在数据集、数据拆分和主要指标方面的性能。例如，SmartPretrain 将 Forecast-MAE 的 MissRate 显着降低了 10.6%。这些结果突出了 SmartPretrain 作为一种统一的可扩展的运动预测解决方案的有效性，打破了小数据机制的限制。代码可在 https://github.com/youngzhou1999/SmartPretrain 获得。

发布时间: 10/14/2024

查看原文

DeltaDQ：基于分组丢弃和独立量化的超高增量压缩方法，用于微调大型语言模型

作者: Yanfeng Jiang, Zelan Yang, Bohua Chen, Shen Li, Yong Li, Tao Li

大型语言模型（LLM）通过监督微调在各种下游任务中取得了优异的性能。然而，下游任务的多样性和实际需求使得部署多个全参数微调模型具有挑战性。现有的压缩增量权重的方法难以实现超高压缩，无法最小化部署开销。为了解决上述问题，我们提出了一种新颖的分布驱动的增量压缩框架DeltaDQ，该框架利用分组 dropout 和单独量化来实现增量权重的超高压缩。我们观察到，增量权重的矩阵计算中间结果表现出极小的方差和最小-最大范围特征，称为平衡中间结果。利用这一现象，我们引入了分组 dropout，使用最佳分组大小对增量权重进行 dropout。此外，使用单独量化，稀疏权重被量化并分解以实现更低的比特数。实验结果表明，与不同参数规模的 WizardMath 和 WizardCoder 模型的基线相比，DeltaDQ 实现了 16 倍的压缩，并提高了准确性。此外，DeltaDQ 展示了超高压缩比的能力，为 WizardMath-7B 模型实现了 128 倍的压缩，为 WizardMath-70B 模型实现了 512 倍的压缩。

发布时间: 10/14/2024

查看原文