arXiv 论文列表

作者: Fran\c{c}ois Charton, Julia Kempe

我们研究了 transformer 模型在算法生成数据集上重复训练样本次数变化时的性能表现。在三个数学问题上：最大公约数、模乘法和矩阵特征值，我们发现，对于固定数量的训练步骤，在较小重复样本集上训练的模型，其性能优于在较大单次使用样本集上训练的模型。我们还证明，两套训练 - 对一小部分随机样本集进行重复使用，并对其余训练集进行正常采样 - 可以实现更快的学习和更好的性能。这突出了重复训练带来的益处可能超过数据多样性的益处。这些数据集和问题提供了一个受控环境，可以阐明深度学习中泛化和记忆之间尚不完全清楚的相互作用。

发布时间: 10/10/2024

查看原文

位置感知：大型语言模型可显式控制长度、复制和粘贴

作者: Zekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu

大型语言模型（LLMs）在各种领域展现出令人印象深刻的能力，包括角色扮演、创意写作、数学推理和编码。尽管取得了这些进步，但 LLMs 在长度控制方面仍然面临挑战，由于其基于词元的操作以及缺乏对严格长度限制数据的训练，它们经常无法遵守特定的长度约束。我们确定这个问题源于缺乏位置意识，并提出了新方法——PositionID 提示和 PositionID 微调——来解决这个问题。这些方法增强了模型在生成过程中持续监控和管理文本长度的能力。此外，我们引入了 PositionID CP 提示，使 LLMs 能够准确地执行复制和粘贴操作。此外，我们开发了两个基准来评估长度控制和复制粘贴能力。我们的实验表明，我们的方法显著提高了模型对长度约束的遵守程度和复制粘贴的准确性，而不会影响响应质量。

发布时间: 10/10/2024

查看原文

三级导航器：面向时间序列 OOD 泛化的 LLM 赋能三级学习

作者: Chengtao Jian, Kai Yang, Yang Jiao

机器学习中的分布外 (OOD) 泛化是一个新兴的研究领域。其主要目标是增强机器学习模型在面对与原始训练数据集显著不同的新数据、未见数据和潜在对抗性数据时的适应性和鲁棒性。本文通过预训练的大型语言模型 (LLM) 研究时间序列 OOD 泛化。我们首先提出了一种用于时间序列 OOD 泛化的三级学习框架，称为 TTSO，它考虑了样本级和组级的不确定性。该公式为 OOD 泛化问题的制定和分析提供了新的理论视角。此外，我们还提供了理论分析来证明该方法的合理性。然后，我们针对该三级优化问题开发了一种分层定位算法，从理论上证明了所提算法的收敛性保证。我们的分析还表明，获得 $\epsilon$-驻点所需的迭代复杂度以 O($\frac{1}{\epsilon^{2}}$) 为界。我们在真实世界数据集上进行了大量实验，以阐明所提方法的有效性。

发布时间: 10/10/2024

查看原文

Pap2Pat：基于分块式提纲引导的自动论文到专利撰写方法

作者: Valentin Knappich, Simon Razniewski, Anna H\"atty, Annemarie Friedrich

专利领域在自然语言处理研究中正受到越来越多的关注，它在简化专利申请流程和为大型语言模型（LLM）提供具有挑战性的基准方面具有实际应用价值。然而，迄今为止，专利描述部分（占专利文件90%以上）的生成尚未得到研究。我们通过引入以大纲为引导的论文到专利生成任务来填补这一空白，其中学术论文提供了发明的技术规范，而大纲则传达了所需的专利结构。我们提出了PAP2PAT，一个新的具有挑战性的基准，包含1.8k个专利-论文对，并带有文档大纲，这些数据是使用反映典型研究实验室实践的启发式方法收集的。我们对当前开放权重LLM和以大纲为引导的基于分块的生成进行的实验表明，它们可以有效地利用来自论文的信息，但难以处理重复，这可能是由于专利语言本身的重复性所致。我们发布了我们的数据和代码。

发布时间: 10/10/2024

查看原文

CursorCore：通过对齐任何内容来辅助编程

作者: Hao Jiang, Qi Liu, Rui Li, Shengyu Ye, Shijin Wang

大型语言模型已成功应用于编程辅助任务，如代码补全、代码插入和指令代码编辑。然而，这些应用的自动化程度仍然不足，在编程过程中难以有效整合各种类型的信息，包括编码历史、当前代码和用户指令。在这项工作中，我们提出了一种新的对话框架，该框架全面整合了这些信息来源，收集数据以训练我们的模型并评估其性能。首先，为了全面评估模型与不同类型信息的一致性及其输出质量，我们引入了一个新的基准 APEval（辅助编程评估），以全面评估模型在编程辅助任务中的性能。然后，为了数据收集，我们开发了一个数据生成管道 Programming-Instruct，它从 GitHub 和在线裁判平台等不同来源合成训练数据。该管道可以自动生成编程过程中各种类型的信息。最后，利用该管道，我们生成了 219K 个样本，微调了多个模型，并开发了 CursorCore 系列。我们证明了 CursorCore 优于其他同等规模的模型。该框架统一了内联聊天和自动编辑等应用程序，有助于推动编码助手的发展。代码、模型和数据可在 https://github.com/TechxGenus/CursorCore 免费获取。

发布时间: 10/10/2024

查看原文

稀疏自动编码器揭示大型语言模型中的通用特征空间

作者: Michael Lan, Philip Torr, Austin Meek, Ashkan Khakzar, David Krueger, Fazl Barez

我们研究了大型语言模型（LLMs）中的特征普适性，这是一个旨在理解不同模型如何在中间层的潜在空间中以类似方式表示概念的研究领域。证明特征普适性可以使关于潜在表示的发现推广到多个模型。然而，由于多义性，在不同的 LLMs 之间比较特征具有挑战性，在多义性中，单个神经元通常对应于多个特征，而不是不同的特征。这使得难以在不同模型之间解开和匹配特征。为了解决这个问题，我们采用了一种称为字典学习的方法，通过使用稀疏自动编码器 (SAEs) 将 LLM 激活转换为由对应于单个特征的神经元跨越的更易解释的空间。在通过激活相关性匹配跨模型的特征神经元之后，我们应用表示空间相似性度量（如奇异值典型相关分析）来分析不同 LLMs 中的这些 SAE 特征。我们的实验揭示了各种 LLMs 中 SAE 特征空间的显着相似性，为特征普适性提供了新的证据。

发布时间: 10/10/2024

查看原文

自适应高频Transformer用于多样化野生动物重新识别

作者: Chenyue Li, Shuoyi Chen, Mang Ye

野生动物ReID利用视觉技术识别不同场景下的野生动物个体，对于野生动物保护、生态研究和环境监测具有重要意义。现有的野生动物ReID方法主要针对特定物种，适用性有限。尽管一些方法利用了经过广泛研究的人员ReID技术，但它们难以应对野生动物带来的独特挑战。因此，本文提出了一种通用的、多物种的野生动物ReID框架。鉴于高频信息是各种物种独特特征的一致表示，极大地帮助识别轮廓和细节，例如毛皮纹理，我们提出了自适应高频Transformer模型，旨在增强高频信息学习。为了减轻野外环境中不可避免的高频干扰，我们引入了一种面向对象的、高频选择策略，以自适应地捕获更有价值的高频成分。值得注意的是，我们统一了多个野生动物数据集的ReID实验设置，在最先进的ReID方法中取得了优异的性能。在领域泛化场景中，我们的方法展示了对未知物种的鲁棒泛化能力。

发布时间: 10/10/2024

查看原文

个人智能系统 UniLM：面向马来群岛的混合式本地小型语言模型与服务器端大型语言模型

作者: Azree Nazri, Olalekan Agbolade, Faisal Aziz

在计算和数据资源有限的情况下，高资源语言模型通常无法满足需求，尤其是在满足马来语的特定需求方面。本文介绍了一种个人智能系统，旨在有效地整合设备端和服务器端模型。该系统将 SLiM-34M 用于设备端处理，针对低内存和低功耗进行了优化，并将 MANYAK-1.3B 用于服务器端任务，从而实现可扩展的高性能语言处理。这些模型在机器翻译、问答和翻译 IndoMMLU 等各种任务中取得了显著成果。值得注意的是，SLiM-34M 在使用预训练标记数量减少 2 倍的情况下，与其他 LLM 相比，在准确性方面取得了显著提高。这项工作挑战了构建有效语言模型需要大规模计算资源的普遍假设，为马来语开发资源高效模型做出了贡献，并在 SLiM-34M 和 MANYAK-1.3B 之间实现了独特的编排。

发布时间: 10/10/2024

查看原文

DLGNet：基于有向线图的化学反应超边分类

作者: Stefano Fiorini, Giulia M. Bovolenta, Stefano Coniglio, Michele Ciavotta, Pietro Morerio, Michele Parrinello, Alessio Del Bue

图和超图提供了强大的抽象方法来模拟一组感兴趣实体之间的交互，并且由于在多个领域取得了成功应用，在文献中引起了越来越多的关注。特别是，它们在化学和生物学领域迅速扩展，特别是在药物发现和分子生成领域。化学反应领域是增长最快的领域之一，其中化学反应可以自然地编码为超图的有向超边。在本文中，我们通过引入与给定有向超图相关的有向线图 (DGL) 的表示来解决化学反应分类问题。在此基础上，我们构建了有向线图网络 (DLGNet)，这是第一个专门为通过其 DLG 变换在超图上运行而设计的基于谱的图神经网络 (GNN)。DLGNet 的基础是一个新颖的厄米矩阵，即有向线图拉普拉斯算子，它通过 DLG 表示紧凑地编码了超图中发生的有向超边内的交互方向。有向线图拉普拉斯算子具有许多理想的特性，包括允许特征值分解和半正定，这使其非常适合在基于谱的 GNN 中采用。通过对化学反应数据集的大量实验，我们表明 DLGNet 显著优于现有方法，在一组真实世界数据集上取得了 33.01% 的平均相对百分比差异改进，最大改进为 37.71%。

发布时间: 10/10/2024

查看原文

揭示因素层级偏好以提升人机对齐

作者: Juhyun Oh, Eunsu Kim, Jiseon Kim, Wenda Xu, Inha Cha, William Yang Wang, Alice Oh

尽管大型语言模型 (LLM) 对齐取得了进展，但理解 LLM 偏好的原因对于弥合预期行为和实际行为之间的差距仍然至关重要。LLM 经常表现出与人类偏好不同的偏差或倾向，例如偏好某些写作风格或产生过于冗长的输出。然而，当前评估偏好对齐的方法通常缺乏可解释性，依赖于粗粒度的比较。为了解决这个问题，我们引入了 PROFILE（PRObing Factors of InfLuence for Explainability），这是一个新颖的框架，它揭示并量化了驱动偏好的特定因素的影响。PROFILE 的因素级别分析解释了人类模型对齐和错位背后的“原因”，为模型改进的方向提供了见解。我们将 PROFILE 应用于分析人类和 LLM 在三个任务中的偏好：摘要、有帮助的响应生成和基于文档的问答。我们的因素级别分析揭示了在生成任务中人类和 LLM 偏好之间存在很大差异，而 LLM 在评估任务中表现出与人类偏好的高度一致性。我们展示了如何利用因素级别洞察，包括解决错位因素或利用生成-评估差距，可以提高与人类偏好的对齐。这项工作强调了可解释的偏好分析的重要性，并突出了 PROFILE 在提供宝贵的训练信号方面的潜力，从而推动人类模型对齐的进一步改进。

发布时间: 10/10/2024

查看原文