设计能够高效解码的最佳线性分组码是一个主要问题,尤其是在短分组长度的情况下。作为接近容量的码,低密度奇偶校验 (LDPC) 码比其他码族具有几个优势,最显著的是它通过置信传播进行高效解码。虽然存在许多 LDPC 码设计方法,但开发满足现代短码长度约束并适应新信道模型的有效稀疏码仍然是一个挑战。在这项工作中,我们首次提出了一种基于梯度的数据驱动方法来设计稀疏码。我们通过在信道噪声模拟下学习因子图,开发了关于置信传播解码的局部最优码。这是通过置信传播算法的新颖完全图张量表示来执行的,通过反向传播在有限域上优化,并与高效的线搜索方法相结合。该方法被证明在解码性能方面比现有的流行码高出几个数量级,并证明了数据驱动方法在码设计中的强大功能。
大型语言模型 (LLM) 已经在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
大型语言模型 (LLMs) 在包括数学、物理和化学在内的各种科学任务中展现出令人印象深刻的能力。尽管取得了成功,但 LLMs 在处理复杂统计任务方面的有效性仍然系统性地未得到充分探索。为了弥合这一差距,我们引入了 StatQA,这是一个为统计分析任务而设计的新基准。StatQA 包含 11,623 个示例,旨在评估 LLMs 在专门的统计任务中的熟练程度及其适用性评估能力,特别是针对假设检验方法。我们使用各种提示策略对代表性的 LLMs 进行了系统性实验,结果表明,即使是像 GPT-4o 这样的最先进模型也只能达到 64.83% 的最佳性能,这表明还有很大的改进空间。值得注意的是,虽然开源 LLMs(例如 LLaMA-3)的能力有限,但经过微调的 LLMs 表现出显著的改进,超过了所有基于上下文学习的方法(例如 GPT-4o)。此外,我们的比较人类实验突出了 LLMs 和人类之间错误类型之间惊人的对比:LLMs 主要犯适用性错误,而人类则主要犯统计任务混淆错误。这种差异突出了熟练程度和缺陷的不同领域,表明结合 LLM 和人类专业知识可以带来互补优势,从而促使人们进一步研究它们的协作潜力。我们的源代码和数据可在 https://statqa.github.io/ 获取。
随着多模态大型语言模型(MLLMs)的快速发展,其评估已变得越来越全面。然而,理解长篇多模态内容作为现实世界应用的基础能力,仍未得到充分探索。在本工作中,我们提出了“多模态干草堆中的针”(MM-NIAH),这是第一个专门设计用于系统评估现有 MLLMs 理解长篇多模态文档能力的基准。我们的基准包括三种类型的评估任务:多模态检索、计数和推理。在每个任务中,模型需要根据散布在给定多模态文档中的不同关键信息来回答问题。通过在 MM-NIAH 上评估领先的 MLLMs,我们观察到现有模型在这些任务上仍有很大的改进空间,特别是在以视觉为中心的评估方面。我们希望这项工作能够为长篇多模态文档理解的进一步研究提供一个平台,并为 MLLMs 的发展做出贡献。代码和基准已发布在 https://github.com/OpenGVLab/MM-NIAH。
在大型语言模型的训练中,像 LoRA 这样的参数高效技术优化了内存使用,并在微调阶段减少了通信开销。然而,在预训练阶段直接应用这些技术会导致性能下降,主要是因为过早实施低秩训练会显著降低模型精度。现有的方法如 ReLoRA 和 GaLore 试图通过更新低秩子空间来解决这一挑战。然而,它们仍然无法达到全秩训练的精度,因为它们必须限制更新频率以保持优化器状态一致性,这阻碍了它们紧密逼近全秩训练行为的能力。本文介绍了 SwitchLoRA,一种参数高效的训练技术,它频繁且平滑地用替代参数替换 LoRA 适配器的可训练参数。SwitchLoRA 增量式地更新低秩子空间,一次只针对少数维度,以最大程度地减少对优化器状态的影响。这允许更高的更新频率,从而通过使更新后的参数能够在预训练阶段更紧密地模拟全秩行为来提高精度。我们的结果表明,SwitchLoRA 实际上超越了全秩训练,在 LLaMA 1.3B 模型上将困惑度从 15.23 降低到 15.01,同时在 LLaMA 1.3B 模型上将通信开销降低了 54%。此外,在 GLUE 基准上对 SwitchLoRA 预训练模型和全秩预训练模型进行完全微调后,SwitchLoRA 预训练模型在全秩预训练模型的基础上平均精度提高了约 1%。这表明 SwitchLoRA 具有增强的泛化和推理能力。
计算预测 T 细胞受体 (TCR) 与其配体的相互作用是免疫学中的一个重大挑战。尽管高通量测定技术取得了进展,但特异性标记的 TCR 数据仍然稀少。在其他领域,语言模型在未标记数据上的预训练已被成功地用于解决数据瓶颈问题。然而,尚不清楚如何最好地预训练蛋白质语言模型以进行 TCR 特异性预测。在这里,我们介绍了一种名为 SCEPTR (T 细胞受体初级序列的简单对比嵌入) 的 TCR 语言模型,它能够进行数据高效的迁移学习。通过我们的模型,我们引入了一种新的预训练策略,将自动对比学习和掩码语言建模相结合,这使得 SCEPTR 能够实现其最先进的性能。相比之下,现有的蛋白质语言模型和未经自动对比学习预训练的 SCEPTR 变体在基于序列比对的方法中表现不佳。我们预计对比学习将是一个有用的范式,用于解码 TCR 特异性的规则。
自动生成的提问经常存在表达不清或事实错误等问题,因此需要一个可靠且全面的评估方法来衡量其质量。人工评估在问句生成(QG)领域被广泛应用,并被视为自动指标的黄金标准。然而,目前缺乏统一的人工评估标准,这阻碍了对QG模型和自动指标的一致且可靠的评估。为了解决这个问题,我们提出了QGEval,这是一个多维度的问句生成评估基准,它从7个维度评估生成的提问和现有的自动指标:流畅性、清晰度、简洁性、相关性、一致性、可回答性和答案一致性。我们通过考察这些维度的相关性和区别来证明其合理性。通过使用QGEval对QG模型和自动指标进行一致的评估,我们发现:1)大多数QG模型在可回答性和答案一致性方面表现不佳;2)现有的指标在评估7个维度上的生成提问时,与人工判断不一致。我们期望这项工作能够促进QG技术及其评估的发展。
训练可证明鲁棒的神经网络是一项重要但极具挑战的任务。虽然已经提出了许多用于(确定性)可证明训练的算法,但它们通常在不同的训练计划、认证方法和系统性欠调的超参数下进行评估,这使得难以比较它们的性能。为了解决这一挑战,我们引入了 CTBENCH,这是一个统一的库和一个高质量的可证明训练基准,它在公平的设置和系统性调优的超参数下评估所有算法。我们表明:(1)CTBENCH 中几乎所有算法在算法改进的幅度上都超过了文献中相应的报道性能,从而建立了新的最先进水平,以及(2)当我们通过公平的训练计划、公平的认证方法和经过良好调优的超参数来增强过时的基线时,最近算法的声称优势会大幅下降。基于 CTBENCH,我们对可证明训练的现状提供了新的见解,并提出了未来的研究方向。我们相信 CTBENCH 将作为未来可证明训练研究的基准和测试平台。
零样本学习和上下文学习使模型无需微调即可解决任务,这对于开发生成模型解决方案至关重要。因此,理解一个预训练模型是否可以通过提示来近似任何函数,即它是否是一个通用的上下文近似器,至关重要。虽然最近的研究表明 Transformer 模型确实具有此属性,但这些结果依赖于其注意力机制。因此,这些发现不适用于完全递归的架构,例如 RNN、LSTM 和越来越流行的 SSM。我们证明了 RNN、LSTM、GRU、线性 RNN 和线性门控架构(例如 Mamba 和 Hawk/Griffin)也可以作为通用的上下文近似器。为了简化我们的论证,我们引入了一种名为 LSRL 的编程语言,它编译为这些完全递归的架构。LSRL 对于进一步研究完全递归模型(例如构建可解释性基准)可能具有独立的意义。我们还研究了乘法门控的作用,并观察到包含这种门控的架构(例如 LSTM、GRU、Hawk/Griffin)可以更稳定地实现某些操作,使其成为实际上下文通用近似应用中更可行的候选者。