arXiv 论文列表

作者: Giorgio Franceschelli, Claudia Cevenini, Mirco Musolesi

大型基础模型和其他深度学习系统的训练过程都基于最小化训练集上的重构误差。因此，它们容易记忆并随后复制训练样本。本文从压缩训练的角度出发，认为模型的权重体现了训练数据的压缩表示。从版权角度来看，这种观点意味着权重可以被视为对可能受保护的一组作品的复制或衍生作品。我们研究了这种基础模型生成输出的版权框架所带来的技术和法律挑战，包括它们对从业人员和研究人员的影响。我们证明，采用以信息为中心的解决问题的方法为解决这些新出现的复杂法律问题提供了一条有希望的途径。

发布时间: 10/8/2024

查看原文

基于知识的语言模型一致性测试

作者: Sai Sathiesh Rajan, Ezekiel Soremekun, Sudipta Chattopadhyay

在本研究中，我们系统地揭示并量化了大型语言模型（LLM）的不一致性和知识差距。具体而言，我们提出了一种自动化测试框架（称为 KonTest），该框架利用知识图谱构建测试用例。KonTest 通过结合语义等效查询和测试预言（变形或本体预言）来探测和衡量 LLM 对世界知识的不一致性。KonTest 进一步通过加权 LLM 模型集成来缓解知识差距。使用四种最先进的 LLM（Falcon、Gemini、GPT3.5 和 Llama2），我们表明 KonTest 生成了 19.2% 的错误诱导输入（9979 个测试输入中的 1917 个错误）。它还揭示了所有测试 LLM 中 16.5% 的知识差距。受 KonTest 测试套件启发的缓解方法将 LLM 知识差距降低了 32.48%。我们的消融研究进一步表明，GPT3.5 不适合基于知识的一致性测试，因为它在知识构建方面的有效性仅为 60%-68%。

发布时间: 10/8/2024

查看原文

光谱：三元、量化和 FP16 语言模型的全面研究

作者: Ayush Kaushal, Tejas Vaidhya, Arnab Kumar Mondal, Tejas Pandey, Aaryan Bhagat, Irina Rish

GPU 算力的快速发展已经超过了内存容量和带宽的增长速度，这在大型语言模型 (LLM) 推理中造成了瓶颈。训练后量化是解决 LLM 推理中内存相关瓶颈的主要方法，但它在低于 4 位精度时会遭受显著的性能下降。本文通过研究低位宽模型（特别是三元语言模型 (TriLMs)）的预训练来解决这些挑战，作为传统浮点模型 (FloatLMs) 及其训练后量化版本 (QuantLMs) 的替代方案。我们提出了 Spectra LLM 套件，这是第一个涵盖多个位宽的开放式 LLM 套件，包括 FloatLMs、QuantLMs 和 TriLMs，参数范围从 99M 到 3.9B，在 300B 个标记上进行训练。我们全面的评估表明，TriLMs 在模型大小（以位计）方面表现出优越的扩展行为。令人惊讶的是，在超过十亿个参数的规模上，TriLMs 在各种基准测试中始终优于给定位大小的 QuantLM 和 FloatLM。值得注意的是，3.9B 参数的 TriLM 在所有基准测试中都匹配了 FloatLM 3.9B 的性能，尽管其位数少于 FloatLM 830M。总的来说，这项研究为低位宽语言模型的可行性和可扩展性提供了宝贵的见解，为开发更高效的 LLM 铺平了道路。为了更好地理解低位宽模型，我们在 \href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite} 发布了 Spectra 套件的 500 多个中间检查点。

发布时间: 10/8/2024

查看原文

微调与提示优化：携手共进，相得益彰

作者: Dilara Soylu, Christopher Potts, Omar Khattab

自然语言处理 (NLP) 系统正越来越多地采用复杂的模块化管道形式，例如检索增强生成 (RAG)，其中每个模块可能包含一个独立的语言模型 (LM) 和一个相关的提示模板。这些复合系统通常缺乏中间标签或梯度流来优化每个模块，这使得它们的端到端优化具有挑战性。在这里，我们寻求策略来优化这些系统的模块级 LM 权重和相关提示模板，以最大限度地提高下游任务指标。我们首次提出将权重和提示优化策略相结合来优化模块化 LM 管道，通过在两者之间交替，使同一个 LM 自行学习。在使用 mistral-7b、llama-2-7b 和 llama-3-8b 进行多跳问答、数学推理和基于特征的分类的实验中，这些 BetterTogether 策略共同优化了管道的权重和提示，其性能优于单独优化权重和单独优化提示，平均而言，在 LM 和任务上分别提高了 60% 和 6%。BetterTogether 优化器在 DSPy 中发布，网址为 http://dspy.ai。

发布时间: 10/8/2024

查看原文

Think-on-Graph 2.0：基于知识引导检索增强生成，实现深度且忠实的 LLM 推理

作者: Shengjie Ma, Chengjin Xu, Xuhui Jiang, Muzhi Li, Huaren Qu, Cehao Yang, Jiaxin Mao, Jian Guo

检索增强生成 (RAG) 通过使用知识检索来解决知识差距，从而增强了大型语言模型 (LLM)。然而，现有的 RAG 方法通常无法确保检索信息的深度和完整性，而这对于复杂的推理任务至关重要。在这项工作中，我们提出了 Think-on-Graph 2.0 (ToG-2)，这是一个混合 RAG 框架，它以紧密集成的方式从非结构化和结构化知识源中迭代检索信息。具体而言，ToG-2 利用知识图 (KG) 通过实体连接文档，促进深度和知识引导的上下文检索。同时，它使用文档作为实体上下文，以实现精确高效的图检索。 ToG-2 在图检索和上下文检索之间交替进行，以搜索与问题相关的深入线索，使 LLM 能够生成准确的答案。我们进行了一系列实验来证明 ToG-2 的以下优势：(1) ToG-2 紧密地整合了上下文检索和图检索，通过 KG 增强上下文检索，同时基于上下文实现可靠的图检索；(2) 它通过集成上下文和 KG 的迭代知识检索过程，在 LLM 中实现了深度和忠实的推理；(3) ToG-2 是无训练的，并且作为即插即用解决方案与各种 LLM 兼容。大量实验表明，ToG-2 在 7 个知识密集型数据集中的 6 个数据集上使用 GPT-3.5 达到了最先进 (SOTA) 的性能，并且可以将较小模型（例如，LLAMA-2-13B）的性能提升到 GPT-3.5 直接推理的水平。

发布时间: 10/8/2024

查看原文

模型不确定性下的马尔可夫智能体控制学习

作者: Jiawei Huang, Vinzenz Thoma, Zebang Shen, Heinrich H. Nax, Niao He

针对不断适应的群体设计激励机制是一个在各种经济应用领域乃至更广泛范围内的普遍问题。本研究探讨如何在没有事先了解代理人潜在学习动态的情况下，设计额外的奖励来引导多代理人系统朝着期望的策略发展。受现有工作的局限性启发，我们考虑了一种新的、通用的学习动态类别，称为“马尔可夫代理”。我们为我们的引导问题引入了一种基于模型的非情景强化学习 (RL) 公式。重要的是，我们专注于学习一种“历史依赖”的引导策略来处理代理人学习动态的固有模型不确定性。我们引入了一种新的目标函数来编码实现良好引导结果与合理成本的期望。在理论上，我们确定了引导策略存在以引导代理人达到期望策略的条件。为了补充我们的理论贡献，我们提供了近似解决我们目标的经验算法，该算法有效地解决了学习历史依赖策略的挑战。我们通过实证评估证明了我们算法的有效性。

发布时间: 10/8/2024

查看原文

NativQA：面向大型语言模型的多语言文化对齐自然查询

作者: Md. Arid Hasan, Maram Hasanain, Fatema Ahmad, Sahinur Rahman Laskar, Sunaya Upadhyay, Vrunda N Sukhadia, Mucahid Kutlu, Shammur Absar Chowdhury, Firoj Alam

自然语言问答 (QA) 数据集在评估大型语言模型 (LLMs) 的能力方面发挥着至关重要的作用，确保其在现实世界应用中的有效性。尽管已经开发了许多 QA 数据集，但缺乏由母语使用者在其本国语言中生成的特定区域数据集。这一差距阻碍了针对区域和文化特性的 LLM 的有效基准测试。此外，它也限制了微调模型的开发。在本研究中，我们提出了一种可扩展的、与语言无关的框架 NativQA，以无缝构建文化和地区对齐的母语 QA 数据集，用于 LLM 评估和调优。我们通过设计一个多语言自然 QA 数据集 \mnqa 来证明所提框架的有效性，该数据集包含约 64k 个手动标注的 QA 对，涵盖七种语言，从高资源到极低资源，基于来自 9 个地区涵盖 18 个主题的母语人士的查询。我们使用 MultiNativQA 数据集对开源和闭源 LLM 进行基准测试。我们还展示了该框架在构建微调数据方面的有效性，尤其是针对低资源和方言丰富的语言。我们将 NativQA 框架和 MultiNativQA 数据集公开提供给社区 (https://nativqa.gitlab.io)。

发布时间: 10/8/2024

查看原文

基于精确位级可逆变换器，无需改变架构

作者: Guoqiang Zhang, J. P. Lewis, W. B. Kleijn

为了减少训练过程中的内存消耗，人们提出了各种可逆深度神经网络 (DNN) 模型。然而，几乎所有现有的可逆 DNN 要么需要特殊的非标准架构，要么需要对现有 DNN 架构进行相当大的修改才能实现可逆性。在这项工作中，我们提出了 BDIA-transformer，这是一种精确的位级可逆 Transformer，它使用不变的标准架构进行推理。基本思想是首先将每个 Transformer 块视为求解常微分方程 (ODE) 的欧拉积分近似，然后将双向积分近似 (BDIA) 技术融入神经架构，并结合激活量化，使其精确地实现位级可逆。在训练过程中，我们让 BDIA-transformer 中的一个超参数 $\gamma$ 在每个训练样本的每个 Transformer 块中随机取两个值 $\{0.5, -0.5\}$ 之一，以对每两个连续的积分近似值进行平均。因此，BDIA-transformer 可以被视为训练一个由一组二元随机变量参数化的 ODE 求解器集合，这会对模型进行正则化，并导致验证精度提高。每个 Transformer 块的轻量级侧信息需要在正向过程中存储，以解决二元量化损失，实现精确的位级可逆性。在推理过程中，期望 $\mathbb{E}(\gamma)=0$ 被用来使 BDIA-transformer 的最终架构与 Transformer 相同，直到激活量化。我们在图像分类和语言翻译中的实验表明，BDIA-transformer 在验证性能方面明显优于其传统的对应物，同时所需的训练内存也大大减少。

发布时间: 10/8/2024

查看原文

用于算术推理的自训练语言模型

作者: Marek Kadl\v{c}\'ik, Michal \v{S}tef\'anik

近年来，语言模型在涉及复杂多步推理的任务中取得了令人瞩目的成果，但传统上，进一步扩展这些能力需要昂贵地收集更多标注数据。在本研究中，我们探索了在没有新数据的条件下，仅仅利用自动反馈来验证算术推理预测结果（自训练）来提升模型推理能力的可能性。在六个不同的算术推理数据集上的系统实验中，我们发现模型在单轮（离线）和在线自训练中均能显著提升，分别在 +13.9% 和 +25.9% 的情况下取得正确结果，这突出了自训练反馈的实际意义。我们进一步发现，在单轮离线自训练中，传统的监督训练可以提供与偏好优化相当的收益，但在在线自训练中，偏好优化方法由于其在未见类型问题上的优越稳定性和鲁棒性，在很大程度上优于监督训练。

发布时间: 10/8/2024

查看原文

VoxAct-B：基于体素的双手动操作策略行动与稳定化

作者: I-Chun Arthur Liu, Sicheng He, Daniel Seita, Gaurav Sukhatme

双臂操控对于许多机器人应用至关重要。与单臂操控相比，双臂操控任务因其更高维的动作空间而极具挑战性。以往的工作利用大量数据和基本动作来解决这个问题，但可能存在样本效率低和跨不同任务泛化能力有限的问题。为此，我们提出了 VoxAct-B，一种基于语言条件的体素方法，它利用视觉语言模型 (VLM) 来优先考虑场景中的关键区域并重建体素网格。我们将此体素网格提供给我们的双臂操控策略，以学习执行和稳定动作。这种方法能够从体素中更有效地学习策略，并且可以推广到不同的任务。在模拟中，我们证明了 VoxAct-B 在细粒度的双臂操控任务中优于强大的基线。此外，我们使用两个 UR5 在现实世界中的 $\texttt{Open Drawer}$ 和 $\texttt{Open Jar}$ 任务中展示了 VoxAct-B。代码、数据和视频可从 https://voxact-b.github.io 获取。

发布时间: 10/8/2024

查看原文