LLM2D

arXiv 论文列表

作者: Xuefeng Li, Haoyang Zou, Pengfei Liu
arXiv:2502.11886v1 Announce Type: cross 摘要:在这篇论文中,我们询问:真正决定强化学习(RL)训练数据对于增强语言模型推理能力的有效性的因素是什么?尽管近期的进展如o1、Deepseek R1和Kimi1.5展示了RL的潜力,但缺乏关于训练数据需求的透明度阻碍了系统性的进展。从基础模型直接开始,而不是通过蒸馏,我们挑战了扩大RL训练数据规模必然提升性能的假设。我们展示了仅仅选择1,389个样本的有策略性的子集就能优于包含8,523个样本的完整数据集。我们引入了一种自动化的Learning Impact Measurement(LIM)方法,该方法基于模型学习轨迹与训练样本的对齐程度来评估和优先排序训练样本,从而实现高效的资源配置和可扩展的实施。仅使用1,389个样本,我们的方法就能达到甚至超越完整数据集8,523个样本的性能表现。值得注意的是,尽管近期的数据高效方法(如LIMO和s1)在32B规模的模型上显示出前景,但我们在监督微调(SFT)下发现,这些方法在7B规模下表现显著不佳。相反,我们的基于RL的LIMR方法在AIME24上的准确率提高了16.7%,在MATH500上的性能分别优于LIMO和s1,提升幅度分别为13.0%和22.2%。这些结果从根本上重塑了我们对RL在LLMs中扩大的理解,表明精确的样本选择而非数据规模可能是解锁增强推理能力的关键。为实现可重复研究和未来创新,我们将开源LIMR,包括LIM的实现、训练和评估代码、精选数据集和训练好的模型,可在https://github.com/GAIR-NLP/LIMR获取。
发布时间: 2/18/2025
查看原文
作者: Jinheng Wang, Hansong Zhou, Ting Song, Shijie Cao, Yan Xia, Ting Cao, Jianyu Wei, Shuming Ma, Hongyu Wang, Furu Wei
arXiv:2502.11880v1 Announce Type: cross 摘要:随着BitNet b1.58引领的1位大型语言模型(LLMs)的出现, ternary LLMs(三值LLMs)的研究兴趣得到了激发。尽管如此,针对ternary LLMs的高效边缘推理的研究和实际应用仍然很少见。为了解决这一问题,我们介绍了Bitnet.cpp,这是一个针对BitNet b1.58和ternary LLMs优化的推理系统。鉴于混合精度矩阵乘法(mpGEMM)在ternary LLMs中的推理时间占据了大部分,Bitnet.cpp包含了一个新型的mpGEMM库,以促进每权重少于2位的高效且无损推理。该库有两个核心解决方案:Ternary Lookup Table(TL),解决了之前位级方法的空间效率问题,和带有尺度的Int2(I2_S),确保了无损边缘推理,两者都实现了高速推理。我们的实验结果显示,Bitnet.cpp相比全精度基线在速度上可以提高6.25倍,相比低位基线可以提高2.32倍,在该领域树立了新的基准。此外,在附录中我们将TL扩展至低位LLMs的元素级查找表(ELUT),展示了其理论和实验证据,证明其有巨大的潜力。Bitnet.cpp可以在https://github.com/microsoft/BitNet/tree/paper 公开获取,为其高效和实用的边缘LLMs部署提供了高级解决方案。
发布时间: 2/18/2025
查看原文
作者: Yahao Pang, Xingyuan Wu, Xiaojin Zhang, Wei Chen, Hai Jin
arXiv:2502.11863v1 宣布类型: cross 摘要:大规模语言模型(LLMs)在自然语言理解和自动化内容创作领域取得了重要的进步。然而,它们仍然面临持久的问题,包括大量的计算成本和训练数据不足。通过联邦学习(FL)与LLMs的结合(联邦LLMs),可以在利用分布式数据的同时保护隐私,这使其成为敏感领域理想的解决方案。然而,联邦LLMs仍面临着稳健性挑战,包括数据异质性、恶意客户端和 adversarial 攻击,这些极大地阻碍了它们的应用。我们首先介绍了联邦LLMs中的稳健性问题,为了解决这些挑战,我们提出了FedEAT(联邦嵌入空间对抗训练)框架,在客户端LLMs的嵌入空间中应用对抗训练,并采用一种稳健的聚合方法,特别是几何中位数聚合,以增强联邦LLMs的稳健性。我们的实验表明,FedEAT能够以最小的性能损失有效地提高联邦LLMs的稳健性。
发布时间: 2/18/2025
查看原文
作者: Aras Yurtman, Daan Van Wesenbeeck, Wannes Meert, Hendrik Blockeel
arXiv:2502.11850v1 宣布类型: cross 摘要: 时间序列模式发现 (TSMD) 识别时间序列数据中的重复模式,但由于其无监督的性质,可能会导致对用户没有意义的模式。为了解决这一问题,我们提出了一种框架,允许用户对要发现的模式施加约束,这些约束可以根据目标模式在应用领域的属性轻松地进行定义。我们还提出了一种框架的有效实现,即 LoCoMotif-DoK 算法。我们证明 LoCoMotif-DoK 能够有效地利用真实数据和合成数据中的领域知识,优于仅支持有限形式领域知识的其他 TSMD 技术。
发布时间: 2/18/2025
查看原文
作者: Mark Vero, Niels M\"undler, Victor Chibotaru, Veselin Raychev, Maximilian Baader, Nikola Jovanovi\'c, Jingxuan He, Martin Vechev
arXiv:2502.11844v1 Announce Type: cross 摘要:自动生成程序长期以来一直是计算机科学中的一个根本性挑战。近期的基准测试表明,大规模语言模型(LLMs)可以在函数级别有效生成代码、进行代码编辑,并解决算法编码任务。然而,要实现完全自动化,LLMs 应该能够生成生产级别的、自包含的应用模块。为了评估LLMs在解决这一挑战时的创新能力,我们引入了BaxBench,这是一个全新的评估基准,包括392个任务,用于生成后端应用。我们重点关注后端应用三个方面的原因:(i)它们在实践中是相关的,构建了大多数现代Web和云软件的核心组件;(ii)它们难以实现,需要多个函数和文件才能实现所需的功能;(iii)它们是安全关键的,因为它们可能暴露给不可信的第三方,因此需要防止部署时攻击的安全解决方案变得至关重要。BaxBench使用全面的测试案例验证生成的应用的功能,并通过执行端到端的利用来评估其安全暴露情况。我们的实验揭示了当前LLMs在功能和安全方面的一些关键局限性:(i)即使是最优秀的模型,OpenAI o1,在代码正确性方面也只能达到60%;(ii)平均而言,我们能够在超过一半由每个LLM生成的正确程序中成功执行安全利用;(iii)在不太流行的后端框架中,模型进一步难以生成正确和安全的应用程序。在BaxBench上的进展标志着朝向以LLMs实现自主和安全软件开发的重要步骤。
发布时间: 2/18/2025
查看原文
作者: Pranav Bhandari, Nicolas Fay, Michael Wise, Amitava Datta, Stephanie Meek, Usman Naseem, Mehwish Nasim
arXiv:2502.11843v1 宣告类型: cross 摘要: 大型语言模型(LLMs)广泛用作对话代理,在教育、法律、医学等领域中发挥其各种能力。然而,LLMs 经常表现出上下文切换行为,导致缺乏一致性和可解释的个性一致交互。对于心理特质的坚持性分析较少,特别是在双人对话(成对)情况下。我们从两个不同角度探讨了这一挑战,首先使用两个对话代理生成一个特定主题的讨论,赋予每个特质(开放性、尽责性、外向性、宜人性和神经质)高/低级别。随后使用多个评判代理来推断原始赋予的特质,以探索预测一致性、模型间的一致性以及与赋予个性的对齐。我们的研究结果表明,虽然LLMs可以被引导进行以个性为导向的对话,但它们维持个性特质的能力在不同的模型组合和讨论设置下存在显著差异。这些不一致性突显了在LLMs中实现稳定和可解释的个性一致交互所面临的挑战。
发布时间: 2/18/2025
查看原文
作者: Muhammad Waseem Akram, Stefano Dettori, Valentina Colla, Giorgio Carlo Buttazzo
arXiv:2502.11840v1 交叉公告类型 摘要:和弦识别在音乐信息检索中起着关键作用,因为和弦在音乐分析中的抽象性和描述性。虽然音频和弦识别系统在小型词汇表(例如,大三和小三和弦)上已经达到了显著的准确性,但大词汇表和弦识别仍然是一个具有挑战性的问题。这种复杂性也源于和弦固有的长尾分布,其中罕见和弦类型在大多数数据集中代表性不足,导致缺乏足够的训练样本。有效的和弦识别需要利用音频序列的上下文信息,但现有的模型,如卷积神经网络、双向长短期记忆网络和双向变换器的组合,在捕捉长期依赖关系方面存在局限性,并且在大词汇表和弦识别任务上表现出次优性能。本文提出了一种新的 ChordFormer 架构,旨在解决大型词汇表的结构性和弦识别(例如,三和弦、低音、七和弦)问题。ChordFormer 利用结合卷积神经网络和变换器的 conformer 块,从而使模型能够有效地捕捉局部模式和全局依赖关系。通过采用重权损失函数和结构化的和弦表示来应对类别不平衡等挑战,ChordFormer 在大词汇表和弦数据集上优于现有最佳模型,达到了帧准确率提升2%和类别准确率提升6%的效果。此外,ChordFormer 在处理类别不平衡方面表现出色,提供了稳健且平衡的和弦类型识别。这种方法填补了理论音乐知识与实际应用之间的差距,推动了大词汇表和弦识别领域的发展。
发布时间: 2/18/2025
查看原文
作者: Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
arXiv:2502.11831v1 交叉类型 摘要:我们研究了一般用途的深度神经网络模型在预测自然视频中遮罩区域时对直观物理理解的掌握情况。利用违反期待框架,我们发现,那些在学习表示空间中训练以预测结果的视频预测模型展示了对各种直观物理属性的理解,如物体恒在性和形状一致性。相比之下,在像素空间中进行视频预测和通过文本进行推理的多模态大型语言模型的表现则接近随机水平。我们对这些架构的比较表明,联合学习一个抽象的表示空间并预测感官输入中缺失的部分,类似于预测编码,是获取直观物理理解的充分条件,并且即使在一周的独特视频上进行训练,模型也能超出随机水平的表现。这挑战了核心知识——一套有助于理解世界的先天系统——需要固定在大脑中才能发展出直观物理理解的想法。
发布时间: 2/18/2025
查看原文
作者: Hanbin Wang, Xiaoxuan Zhou, Zhipeng Xu, Keyuan Cheng, Yuxin Zuo, Kai Tian, Jingwei Song, Junting Lu, Wenhui Hu, Xueyang Liu
arXiv:2502.11829v1 评测类型:交叉 摘要:本文介绍了Code-Vision,一个旨在评估多模态大型语言模型(MLLMs)的逻辑理解和代码生成能力的基准。它挑战MLLMs根据给定的流程图生成满足特定功能要求的正确程序,流程图直观地表示所需的算法或过程。Code-Vision包含三个子集:HumanEval-V、Algorithm和MATH,分别评估MLLMs在基本编程、算法和数学问题解决领域的编码能力。我们的实验在Code-Vision上评估了12个MLLMs。实验结果表明,专有模型和开源模型之间的性能差异很大。在难题上,GPT-4o 的通过率为79.3%,而最好的开源模型仅达到15%。进一步的实验表明,与其它多模态推理基准MMCode和MathVista相比,Code-Vision可以提出独特的挑战。我们还探讨了开源模型表现不佳的原因。所有数据和代码均可在https://github.com/wanghanbinpanda/CodeVision 获取。
发布时间: 2/18/2025
查看原文
作者: Xu Wang, Yan Hu, Wenyu Du, Reynold Cheng, Benyou Wang, Difan Zou
arXiv:2502.11812v1 Announce Type: 交叉 摘要:微调显著提高了大型语言模型(LLMs)的性能,但其背后的机制尚未完全理解。本文旨在通过电路分析这一在机制解释性(MI)中流行的工具,提供微调过程的深入解释。不同于之前的研究[@prakash2024finetuningenhancesexistingmechanisms, chhabra2024neuroplasticity]集中在预训练模型已经表现良好的任务,我们在一组数学任务中开发了一套方法,这些任务通过微调可以带来显著的性能提升,更加接近实际应用场景。在我们的实验中,我们识别了微调过程中各个检查点的电路,并研究了电路分析、微调方法和任务复杂性之间的相互作用。首先,我们发现,在微调前后,电路中的节点保持了高度的相似性,但边发生了显著的变化,这与之前的工作[@prakash2024finetuningenhancesexistingmechanisms, chhabra2024neuroplasticity]只显示微调后电路仅增加了某些额外组件的结果相反。基于这些观察,我们开发了一种电路感知的低秩适应(LoRA)方法,该方法根据电路中边的变化为各层分配秩。实验结果显示,我们的基于电路的LoRA算法在相似的参数大小下比标准LoRA平均提高了2.46%的性能。此外,我们探讨了如何结合子任务的电路来增强组合任务中的微调,为设计此类任务提供了新的见解,并加深了对电路动力学和微调机制的理解。
发布时间: 2/18/2025
查看原文