arXiv:2502.12982v1 类别: cross
摘要: Sailor2 是一系列用于东南亚 (SEA) 语言的前沿多语言语言模型,提供 1B、8B 和 20B 规模的版本,以适应不同的应用场景。在 Qwen2.5 的基础上,Sailor2 经过对 500B 个标记的持续预训练(其中 400B 个是SEA特定的标记,100B 个是重播标记),以支持 13 种 SEA 语言的同时保留汉语和英语的专业水平。Sailor2-20B 模型在 SEA 语言中与 GPT-4o 的对战中取得了 50-50 的胜率。我们还提供了一份完整的食谱,介绍如何高效地开发多语言模型,包括五个关键方面:数据整理、预训练、后训练、模型定制和评估。我们希望Sailor2 模型(采用 Apache 2.0 许可证)能够推动东南亚地区的语言发展,并希望 Sailor2 食谱能够启发研究人员为其他未充分服务的语言构建更具包容性的语言大模型 (LLM)。
arXiv:2502.12977v1 类型: cross
摘要: 基于梯度的归因方法旨在解释深度学习模型的决策,但目前缺乏可识别性保证。在这里,我们提出了一种通过在时间序列数据上开发正则化对比学习算法并结合一种新的归因方法(称为反转神经元梯度,统称为xCERBA)来生成具有可识别性保证的归因图的方法。理论分析表明,xCERBA 具有识别数据生成过程雅可比矩阵的优势属性。实验证明,xCERBA 在合成数据集上稳健地近似真实归因图中的零和非零条目,并改进了基于特征消融、Shapley 值以及其他基于梯度的方法的以前的归因方法的表现。我们的工作构成了时间序列归因图可识别推断的第一个例子,并为更好地理解时间序列数据(如神经动力学和神经网络中的决策过程)开辟了途径。
arXiv:2502.12965v1 交叉宣布类型
摘要:机器学习(ML)模型的基本假设是训练数据和测试数据来自相同的分布。然而,在实际应用中,这个假设往往被打破,即测试数据的分布随时间变化,这阻碍了传统ML模型的应用。一个自然发生分布转移的领域是文本分类,因为人们总是在讨论新的话题。为此,我们综述了研究开放式文本分类及相关任务的文章。我们根据定义分布转移种类及其对应的求解方案的方法,将这些领域的方法分为使用Universum学习、零样本学习和开放式学习几类。接下来,我们讨论了每个问题设置下的主要缓解方法。最后,我们确定了几项未来工作的方向,旨在超越目前的水平。有趣的是,我们发现连续学习可以解决许多由类别分布转移引起的问题。我们维护了一个相关论文列表:https://github.com/Eduard6421/Open-Set-Survey。
arXiv:2502.12959v1 宣布类型: 交叉
摘要: 重新对齐技术经常被用来增强多语言语言模型中的跨语言迁移,但仍有时会在与微调源语言差异极大的语言中降低性能。本文介绍了一种名为AlignFreeze的方法,该方法在重新对齐过程中冻结每一层的下半部分或上半部分。通过在4项任务、3个模型和35种语言上进行受控实验,我们发现重新对齐会影响所有层,但对下层的影响尤为显著。冻结下层可以防止性能下降。特别是,AlignFreeze在重新对齐失败的语言中提高了词性标注性能:与XLM-R相比,它在7种更多语言上的准确率改进超过了一个标准差。
arXiv:2502.12953v1 交叉公告类型
摘要:掩码语言模型已成为一种广泛采用的无监督技术,用于预训练语言模型。然而,选择用于掩码的标记过程是随机的,掩码标记的比例在整个训练过程中通常是固定不变的。在本文中,我们提出调整掩码比例,并根据新型任务导向的反课程学习方案来决定哪些标记需要被掩码。首先,我们利用任务特定的知识来确定哪些标记是有利的和有害的,以便决定哪些标记需要被掩码。其次,我们提出了一种循环衰减的掩码比例,这对应于一个反课程学习计划(从难到易)。我们通过情感分析、基于主题的文本分类和作者归属三个不同下游任务的掩码(TIACBM)方法来举例说明我们的新型任务导向的反课程学习方案。我们的发现表明,TIACBM 提高了模型专注于关键任务相关特征的能力,从而在各个任务上带来了统计上显著的性能提升。我们已在 https://github.com/JarcaAndrei/TIACBM 发布了我们的代码。
arXiv:2502.12948v1 Announce Type: cross
Abstract: 从心脏LGE MRI图像中检测超增强是一个需要大量临床专业知识的任务。尽管基于深度学习的模型在该任务上显示出有希望的结果,但它们需要大量具有精细注释的数据。为心脏MR研究生成的临床报告中包含丰富的临床相关信息,包括任何瘢痕的部位、范围和病因。尽管最近开发的基于CLIP的方法能够使用图像-文本对进行预训练,但它也要求大量数据和进一步的微调策略。在本研究中,我们利用源于领域知识的各种策略,仅使用临床报告中的文本对965名患者的相对较小的临床队列进行LGE检测模型的训练。我们通过合成数据增强来提高性能,系统地创建了瘢痕图像及其相关文本。此外,我们以解剖学为基础标准化图像的方向,以促进空间和文本特征的更好对齐。我们还使用描述性损失使细粒度监督成为可能,并探索视觉编码器预训练对性能的影响。最后,我们进行了消融研究,以阐明每个设计组件对模型整体性能的贡献。
arXiv:2502.12947v1 类型: cross
摘要:随着混合专家(MoE)的出现,模型规模的高效扩展已经加速了近年来大型语言模型的发展。然而,它们对内存的高需求限制了它们在资源受限环境中的应用。虽然知识蒸馏(KD)已经被证明是一种有效的模型压缩方法,但其应用于MoE教师模型的研究仍然相对较少。通过我们的调查,我们发现MoE模型中未激活的专家蕴含了对学生模型有益的知识。我们进一步证明,现有的KD方法对于压缩MoE模型来说并不理想,因为它们无法有效地利用这种知识。为了解决这个问题,我们首次提出了两种针对MoE的直观KD方法:知识增强(KA)和学生意识路由器(SAR),两者都旨在有效提取所有专家的知识。具体而言,KA通过多次采样专家来增强知识,而SAR使用所有专家并通过路由器训练调整专家权重,以提供最优知识。大量的实验结果显示,我们提出的方法优于传统KD方法,证明了它们对MoE教师模型的有效性。
arXiv:2502.12929v1 类型: cross
摘要: 我们提出了一种名为Flow-of-Options (FoO) 的新颖推理方法,旨在解决大型语言模型 (LLMs) 内在的偏差问题。FoO 让LLMs能够系统地探索其推理中多样化的可能性,这一能力通过基于FoO的自主解决机器学习任务的代理系统(AutoML)得到了展示。我们的框架在标准数据科学任务上优于最先进的基准方法,实现了38.2% - 69.2%的性能提升,在治疗化学任务上则达到了37.4% - 47.9%的提升。凭借每任务操作成本低于1美元,我们的框架非常适合成本敏感的应用。除了分类和回归之外,我们还展示了基于FoO的代理系统在强化学习和图像生成等任务中的广泛适用性。与当前最先进的AutoML代理系统相比,我们的框架展示了显着的改进,这得益于FoO在通过压缩和可解释表示强制多样性,以及结合案例推理时支持长期记忆方面的优势。
arXiv:2502.12925v1 公告类型: cross
摘要:近年来,音频基础模型的研究取得了显著进展,这体现在复杂下游任务上的不断改进结果中。因此,这些预训练网络迅速被用于各种音频应用中。然而,这些改进却导致了模型大小和复杂度的显著增加。这一问题伴随着环境问题,这使得这些网络无法部署在消费级设备上,也限制了它们在实时应用中的使用。此外,这似乎与这些模型所应用于的具体任务的特异性相矛盾,这些任务通常比从任何类型音频数据中提取丰富且多用途的表示要简单得多。在这篇论文中,我们通过一种简单而有效的方法解决了这个问题,从大型基础模型中提取轻量级的专家子网络。具体而言,我们在预训练表示模型的层之间引入了可学习的二进制掩码。在针对下游任务训练端到端模型时,我们增加了一个稀疏性诱导损失到整体目标中,从而学习一个专门用于单一任务的紧凑型子网络。重要的是,基础模型的权重被保持冻结,结果导致较低的额外训练成本。一旦训练完成,掩码的计算单元可以从网络中移除,这将带来显著的性能提升。我们使用三种广泛使用的音频基础模型对我们的方法进行了评估,每种模型基于不同的骨干架构,并在其常见的音频表示评估任务上展示了其有效性,同时也在语音、音乐和一般音频领域展示了其灵活性。可通过以下链接复制结果的代码和支持页面:https://github.com/gnvIRCAM/Audio-representation-trimming
arXiv:2502.12924v1 宣告类型: cross
摘要:代码转换(CS)仍然是自然语言处理(NLP)中的一个关键挑战。当前的大规模语言模型(LLMs)在解释和生成代码转换文本方面仍存在困难,主要原因是缺乏大规模的CS数据集进行训练。本文提出了一种新的方法论,使用LLMs生成CS数据,并在英语-西班牙语语言对上进行了测试。我们建议将自然的CS句子反向翻译成单一语言的英语,并使用由此产生的平行语料库对LLMs进行微调,以将单一语言句子转换为CS。与之前生成CS的途径不同,我们的方法论将自然CS数据作为起点,使模型能够学习其自然分布,而不仅仅是语法模式。我们通过一项关于人类偏好的研究、定性的错误分析以及使用流行的自动评估指标进行评估,全面分析了模型的性能。结果表明,我们的方法论生成了流畅的代码转换文本,扩展了CS通信的研究机会,而且传统的评估指标与人类判断之间在评估生成的CS数据质量时并无相关性。我们以CC-BY-NC-SA许可协议发布我们的代码和生成的数据集。