arXiv 论文列表

作者: Yuting Zeng, Weizhe Huang, Lei Jiang, Tongxuan Liu, Xitai Jin, Chen Tianying Tiana, Jing Li, Xiaohua Xu

arXiv:2502.04790v2 Announce Type: replace-cross 摘要：大规模语言模型（LLMs）在各种自然语言处理（NLP）场景中展现出了卓越的能力，但在处理复杂的算术和逻辑推理任务时仍然面临挑战。虽然链式思考（CoT）推理、自一致性（SC）和自我纠正策略试图在顺序和多步推理中引导模型，但多代理辩论（MAD）已成为增强LLM推理能力的一种可行方法。通过增加代理的数量和辩论的频率，LLM的性能显著提高。然而，这种策略会导致显著增加的令牌费用，成为一个可扩展性的障碍。为应对这一挑战，我们提出了一种新颖的稀疏化策略，旨在在MAD中减少令牌费用。这种方法最大限度地减少了信息的无效交换和代理间无生产力的讨论，从而增强了辩论过程的整体效率。我们在多个数据集上的多种模型中进行了比较实验，证明我们的方法在很大程度上减少了MAD中的令牌费用。具体而言，与MAD相比，我们的方法在保持性能下降低于2.0%的前提下，实现了高达94.5%的显著令牌费用减少。

发布时间: 4/11/2025

查看原文

Dreamweaver：从像素中学习 compositional 世界模型

作者: Junyeob Baek, Yi-Fu Wu, Gautam Singh, Sungjin Ahn

arXiv:2501.14174v5 宣告类型: replace-cross 摘要：人类天生拥有将对世界的感知分解为物体及其属性的能力，如颜色、形状和运动模式。这一认知过程使我们能够通过重组熟悉的概念来想象新的未来。然而，在人工智能系统中复制这种能力极具挑战性，尤其是在将视频建模为组合性概念，并生成前所未见、重组后的未来方面，尤其是在无需依赖辅助数据（如文本、遮罩或边界框）的情况下。在本文中，我们提出了 Dreamweaver，一种神经架构，旨在从原始视频中发现层次化的和组合性的表示，并生成组合性的未来模拟。我们的方法利用了新颖的循环块槽单元（RBSU）来分解视频为其构成的物体和属性。此外，Dreamweaver 使用多未来帧预测目标，以更有效地捕捉动态概念和静态概念的独立表示。在实验中，我们在 DCI 框架下使用多个数据集评估我们的模型时，证明我们的模型在世界建模方面优于当前最先进的基线。此外，我们展示了我们模型模块化概念表示的组合性想象能力，使得由先前观察到的对象的属性重新组合生成新颖的视频成为可能。cun-bjy.github.io/dreamweaver-website

发布时间: 4/11/2025

查看原文

让SSMs成为卷积神经网络：基于最优张量收缩的状态空间建模

作者: Yan Ru Pei

arXiv:2501.13230v2 宣布类型: 替换交叉摘要: 我们引入了Centaurus网络，这是一种由广义状态空间模型（SSM）块组成的一类网络，在训练过程中，SSM操作可以视为张量收缩。随后，可以系统地确定每个SSM块中张量收缩的最佳顺序，以最大限度地提高训练效率。这使得在设计SSM块时具有更大的灵活性，超越了通常实施的深度可分离配置。新的设计选择将从经典卷积块中汲取灵感，包括分组卷积、全卷积和瓶颈块。我们通过将这些块的混合体构建成Centaurus网络，以在网络规模、性能以及训练和推理期间的内存和计算效率之间取得平衡。我们展示了这种异构网络设计在包括关键词定位、语音去噪和自动语音识别（ASR）等原始音频处理任务中优于其同质对应物。对于ASR，Centaurus是第一个能够在不使用非线性递归（LSTMs）、显式卷积（CNNs）或（替代）注意力机制的情况下，实现具有竞争力性能的完全基于状态空间的网络。源代码作为补充材料可从 https://openreview.net/forum?id=PkpNRmBZ32 获得。

发布时间: 4/11/2025

查看原文

MONA：近视优化与远视批准可以缓解多步奖励劫持

作者: Sebastian Farquhar, Vikrant Varma, David Lindner, David Elson, Caleb Biddulph, Ian Goodfellow, Rohin Shah

arXiv:2501.13011v2 宣告类型: replace-cross 摘要：未来的高级AI系统可能通过强化学习（RL）学会复杂的策略，人类无法充分理解这些策略，从而无法安全评估。我们提出了一种训练方法，该方法避免了代理学习具有高奖励但人类无法察觉到的不希望的多步计划（多步“奖励欺诈”）。该方法名为即时优化与前瞻批准（MONA），通过结合短视优化和远视奖励来实现。我们证明，即使在无法检测到奖励欺诈的情况下，MONA也可以防止普通RL引起的多步奖励欺诈，而无需提供任何普通RL无法访问的额外信息。我们通过三个不同的设置来实证研究MONA，这些设置模型了不同的对齐失效模式，包括具有LLM代表代委监督和编码推理的两步环境，以及具有更长时间 horizons 的格子世界环境，代表传感器篡改。

发布时间: 4/11/2025

查看原文

实时验证和细化语言模型文本生成

作者: Joonho Ko, Jinheon Baek, Sung Ju Hwang

arXiv:2501.07824v3 通知类型: replace-cross 摘要：大型语言模型（LLMs）在各种自然语言任务中表现出色。然而，它们仍然面临一个关键挑战，即有时会生成事实性错误的答案。为了解决这一问题，尽管许多先前的工作集中于识别其生成过程中的错误并进一步对其进行修正，但它们在部署时速度较慢，因为这些工作设计为仅在LLM完成其整个生成过程（从第一个到最后一个词）后才进行验证。此外，我们观察到，一旦LLM早期生成了错误的词，后续的词也更有可能是事实性错误的。为了解决这一问题，本文提出了一种名为Streaming-VR（流式验证和修正）的新颖方法，旨在提高LLM输出验证和修正的效率。具体而言，Streaming-VR可以在生成过程中实时验证和修正每个词，类似于流式处理，确保每个词子集在LLM构建其响应的过程中由另一个LLM实时检查和修正。通过在多个数据集上的全面评估，我们展示了该方法不仅提高了LLM的事实准确性，还提供了一种比先前的修正方法更高效的方法。

发布时间: 4/11/2025

查看原文

MedCT: 一个用于医疗保健生成式AI应用的临床术语图谱

作者: Ye Chen, Dongdong Huang, Haoyun Xu, Cong Fu, Lin Sheng, Qingli Zhou, Yuqiang Shen, Kai Wang

arXiv:2501.06465v3 宣布类型: replace-cross 摘要: 我们介绍了首个针对中国医疗社区的临床术语体系,即MedCT,并附带一个临床基础模型MedBERT和一个实体链接模型MedLink。MedCT系统实现了对中国临床数据的标准化和可编程表示,从而依次促进了新药物、治疗路径的发展,并改善了庞大中国社区的患者结果。此外,MedCT知识图谱提供了一种有原则的机制,以最小化大型语言模型(LLMs)的幻觉问题,从而在基于LLM的临床应用中实现了显著的准确性和安全性。通过利用LLMs的生成能力和表现力,我们能够在三个月内迅速构建一个生产级的术语体系并将其部署到真实世界的临床领域,而传统的术语体系如SNOMED CT则经历了超过二十年的发展时间。我们的实验表明,MedCT系统在语义匹配和实体链接任务中达到了最先进的(SOTA)性能,不仅对中文,也对英文。我们还通过在一系列代表性的临床任务中应用MedCT和LLMs,进行了纵向实地实验,包括电子健康记录(EHR)自动化生成和医疗文件搜索以辅助诊断决策。我们的研究展示了MedCT在临床工作流程和患者结果中的多种价值,特别是在临床LLM应用的新领域。我们以足够的工程细节呈现了我们的方法,使得为其他非英语社会构建临床术语体系能够容易地进行重现。我们公开了我们的术语体系、模型和算法,以及真实世界的临床数据集,以促进开发。

发布时间: 4/11/2025

查看原文

张量积注意力等你所用

作者: Yifan Zhang, Yifeng Liu, Huizhuo Yuan, Zhen Qin, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao

arXiv:2501.06425v3 宣告类型: 替换-交叉摘要：将语言模型扩展以处理更长的输入序列通常需要大量的键值（KV）缓存，导致推理过程中内存开销大幅增加。本文中，我们提出了张量积注意力（TPA），这是一种新颖的注意力机制，使用张量分解来紧凑地表示查询、键和值，显著减少了推理时的KV缓存大小。通过将这些表示分解为上下文低秩组件（上下文因式分解）并无缝集成RoPE，TPA 在提高模型质量的同时实现了内存效率。基于TPA，我们引入了张量积注意力转换器（T6），这是一种新的序列建模模型架构。通过在语言建模任务上的广泛实证评估，我们证明了T6在各种指标上超过了包括MHA、MQA、GQA和MLA在内的标准Transformer基线模型，包括困惑度和一系列知名评估基准。值得注意的是，TPA的内存效率使得在固定资源约束下能够处理显著更长的序列，解决了现代语言模型中的关键可扩展性挑战。代码可在https://github.com/tensorgi/T6获取。

发布时间: 4/11/2025

查看原文

TangoFlux：流匹配和拍子排名偏好优化下的超快忠实文本转音频生成

作者: Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Amir Ali Bagherzadeh, Chuan Li, Rafael Valle, Bryan Catanzaro, Soujanya Poria

arXiv:2412.21037v2 发布类型: replace-cross 摘要: 我们引入了TangoFlux，一个高效的文本到音频(TTA)生成模型，参数量为515M，能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。在对齐TTA模型时面临的 key 挑战之一是难以创建偏好对，因为TTA缺乏大型语言模型(LLMs)中可用的可验证奖励或黄金标准答案等结构化机制。为了解决这一问题，我们提出了CLAP-排名偏好优化(CRPO)这一新颖框架，该框架通过迭代生成和优化偏好数据来增强TTA对齐。我们证明了使用CRPO生成的音频偏好数据集优于现有替代方案。在此框架下，TangoFlux在客观和主观基准测试中均取得了最先进的性能。我们开源了所有代码和模型以支持对TTA生成的进一步研究。

发布时间: 4/11/2025

查看原文

引文BART：学习生成引文以进行局部引文推荐

作者: Ege Yi\u{g}it \c{C}elik, Selma Tekir

arXiv:2412.17534v2 通知类型: replace-cross 摘要：局部引用推荐（LCR）是在给定上下文中为引用占位符建议一组论文。随着生成方法比传统的预取和重新排名的最先进方法更加有前景，这项任务已经发生了变化。本文引入了一种编码器-解码器架构中的引用特定预训练方法，其中引用的作者-日期标记被遮掩，以学习重构它们来满足LCR。这种预训练有两种变体。在仅局部上下文的基础方案（CiteBART-Base）中，遮掩局部上下文中的一项引用标记，以学习预测该引用。全球版本（CiteBART-Global）通过扩展该引用的标题和摘要来增强局部上下文，从而丰富学习信号。CiteBART-Global在LCR基准测试上达到了最先进的性能，除了FullTextPeerRead数据集，这个数据集非常小，无法体现出生成预训练的优势。在更大的基准测试中，例如Refseer和ArXiv上的效果显著，以Refseer基准测试训练的模型在性能上表现出最优。我们进行了全面的实验，包括消融研究、定性分析以及详细的幻觉分类统计。我们的分析证实，CiteBART-Global具有跨数据集的泛化能力；在前三个预测中的宏幻觉率（MaHR）为4%，而当真实值在前k个预测列表中时，其他预测中的幻觉倾向显著降低。

发布时间: 4/11/2025

查看原文

通过噪声遮蔽实现大规模和深度图神经网络

作者: Yuxuan Liang, Wentao Zhang, Zeang Sheng, Ling Yang, Quanqing Xu, Jiawei Jiang, Yunhai Tong, Bin Cui

arXiv:2412.14602v2 Announce Type: replace-cross 摘要：近年来，图神经网络（GNNs）在许多图挖掘任务中取得了显著的成功。然而，由于在训练过程中反复特征传播和非线性变换带来的高计算和存储成本，将它们扩展到大规模图仍然是一个挑战。应对这一挑战的一种常见方法是模型简化，该方法在预处理阶段只执行一次传播（P），然后通过不同的方式结合（C）这些接收域，再将它们输入到一个简单的模型中以获得更好的性能。尽管这些方法在预测性能和可扩展性方面表现出色，但它们仍然面临两个限制。首先，现有方法主要从模型角度来看待不同的C方法，而没有从数据为中心的角度关注P深度增加导致的性能退化问题，即过度平滑问题。其次，预处理开销占用了端到端处理时间的大部分，尤其是在大规模图的情况下。为了解决这些限制，我们提出了带有噪声掩蔽的随机游走（RMask）模块，该模块与现有的模型简化工作兼容。该模块使得能够探索更深的GNNs同时保持其可扩展性。与之前的模型简化工作不同，我们集中在连续的P上，并发现每个P中存在的噪声是导致过度平滑问题的原因，并使用高效的掩蔽机制来消除它们。在六个真实数据集上的实验结果表明，配备RMask的模型简化工作在性能上优于其原始版本，并能够在准确性和效率之间取得良好的权衡。

发布时间: 4/11/2025

查看原文