LLM2D

arXiv 论文列表

华为翻译服务中心(HW-TSC)在 (WMT 2024) 中提交了西班牙语低资源语言翻译任务的参赛结果。我们参加了三个翻译任务:西班牙语到阿拉贡语 (es-arg)、西班牙语到阿兰语 (es-arn) 和西班牙语到阿斯图里亚斯语 (es-ast)。针对这三个翻译任务,我们基于训练深度 Transformer-Big 架构的神经机器翻译 (NMT) 模型,采用了多语言迁移、正则化 dropout、正向翻译和反向翻译、LabSE 去噪、转导集成学习等训练策略。通过使用这些增强策略,我们的提交在最终评估中取得了具有竞争力的结果。
发布时间: 9/25/2024
查看原文
大型语言模型 (LLMs) 在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLMs 的方法...
发布时间: 9/25/2024
查看原文
本文提出了一种基于混合专家(MoE)连接器的语音条件大型语言模型(LLM),用于解决自动语音识别(ASR)中的代码切换(CS)挑战。具体来说,我们提出了一种插入和删除中断标记(IDIT)机制,以提高LLM在语音识别任务中的文本生成能力。我们还提出了一种具有MoE架构的连接器,可以有效地管理多种语言。为了进一步增强多个专家的协作并利用LLM的理解能力,我们提出了一种两阶段渐进式训练策略:1)解冻连接器并使用语言专用专家进行训练,以将语音表示映射到文本空间。2)使用提出的IDIT机制训练连接器和LLM LoRA适配器,并激活所有专家以学习通用表示。实验结果表明,我们的方法显著优于最先进的模型,包括端到端和大型音频语言模型。
发布时间: 9/25/2024
查看原文
本文介绍了华为翻译中心 (HW-TSC) 提交给 WMT24 印度语机器翻译 (MT) 共享任务的成果。为了开发可靠的低资源印度语机器翻译系统,我们采用了两种不同的知识迁移策略,考虑了语言脚本的特性以及印度语现有开源模型的支持。对于阿萨姆语 (as) 和曼尼普尔语 (mn),我们微调了现有的 IndicTrans2 开源模型,以实现英语与这些语言之间的双向翻译。对于卡西语 (kh) 和米佐语 (mz),我们使用这四种语言对的双语数据,以及大约 8kw 的英语-孟加拉语双语数据,训练了一个多语言模型作为基线,这些语言对都具有一些语言特征。然后,我们进行了微调,以实现英语与卡西语之间的双向翻译,以及英语与米佐语之间的双向翻译。我们的迁移学习实验取得了令人印象深刻的结果:在各自的测试集上,en-as 为 23.5 BLEU,en-mn 为 31.8 BLEU,as-en 为 36.2 BLEU,mn-en 为 47.9 BLEU。同样,多语言模型迁移学习实验也取得了令人印象深刻的结果,在各自的测试集上,en-kh 为 19.7 BLEU,en-mz 为 32.8 BLEU,kh-en 为 16.1 BLEU,mz-en 为 33.9 BLEU。这些结果不仅突出了迁移学习技术在低资源语言中的有效性,而且有助于提高低资源印度语的机器翻译能力。
发布时间: 9/25/2024
查看原文
基于大型Transformer的模型在语音转录和翻译方面具有巨大潜力。它们的自我注意力机制和并行处理能力使它们能够捕获音频序列中复杂的模式和依赖关系。然而,这种潜力也伴随着挑战,因为这些庞大且计算密集型的模型会导致推理速度缓慢。为了提高性能,人们提出了各种优化策略,包括高效的硬件利用和算法增强。本文介绍了Whisper-Medusa,这是一种旨在以最小的词错误率(WER)影响来提高处理速度的新方法。该模型通过在每次迭代中预测多个标记来扩展OpenAI的Whisper架构,从而将延迟降低了50%。我们展示了Whisper-Medusa在不同学习设置和数据集上的有效性。
发布时间: 9/25/2024
查看原文
传统的机器人模拟器专注于物理过程建模和逼真的渲染,往往面临着高计算成本、低效和适应性差等问题。为了解决这个问题,我们提出了机器人行为模拟,强调检查机器人的行为逻辑,并在机器人动作的结果和真实场景之间实现充分的一致性。本文介绍了 BeSimulator,一个模块化且新颖的基于大型语言模型 (LLM) 的框架,作为在文本环境中进行行为模拟的尝试。通过构建基于文本的虚拟环境并进行语义级模拟,BeSimulator 可以跨场景泛化并实现长期的复杂模拟。受人类认知过程的启发,它采用了一种名为行为模拟链的“考虑-决定-捕获-转移”方法,擅长分析动作的可行性和状态转换。此外,BeSimulator 还整合了代码驱动的推理,以实现算术运算并增强可靠性,并集成了反射反馈以改进模拟。基于我们手动构建的基于行为树的模拟基准 BTSIMBENCH,我们的实验表明,与基线相比,行为模拟的性能有了显著提高,范围从 14.7% 到 26.6%。
发布时间: 9/25/2024
查看原文
对话状态跟踪(DST)对于理解用户需求并在面向任务的对话中执行适当的系统操作至关重要。大多数现有的 DST 方法被设计为在预定义的本体内工作,并假设存在黄金域标签,因此难以适应新的槽值。虽然基于大型语言模型 (LLM) 的系统展现出有希望的零样本 DST 性能,但它们要么需要大量的计算资源,要么性能不如现有的完全训练的系统,限制了它们的实用性。为了解决这些限制,我们提出了一种零样本、开放词汇的系统,它将域分类和 DST 集成到一个管道中。我们的方法包括将 DST 重构为一个问答任务,以适用于能力较弱的模型,并为更具适应性的模型采用自我完善的提示。我们的系统不依赖于本体中定义的固定槽值,从而使系统能够动态地适应。我们将我们的方法与现有的最先进方法进行了比较,结果表明,它在 Multi-WOZ 2.1 等数据集上比以前的方法提供了高达 20% 的联合目标准确率 (JGA) 提升,同时将对 LLM API 的请求减少了高达 90%。
发布时间: 9/25/2024
查看原文
本工作提出了一种面向控制的辨识方案,用于非线性系统的有效控制设计和稳定性分析。神经网络用于识别一个离散时间非线性状态空间模型,以近似非线性系统的时域输入输出行为。网络的构建使得识别出的模型能够通过反馈近似线性化,确保控制律在学习阶段自然产生。在辨识和准线性化过程之后,线性控制理论就可以用来设计鲁棒控制器并研究闭环系统的稳定性。本文通过系统辨识的流行基准对该方法的有效性和兴趣进行了说明。
发布时间: 9/25/2024
查看原文
我们介绍了自适应学习-测试 (aLTT),这是一种高效的超参数选择程序,它为 AI 模型的总体风险提供了有限样本统计保证。与现有的学习-测试 (LTT) 技术不同,后者依赖于传统的基于 p 值的多重假设检验 (MHT),aLTT 通过利用 e 过程实现了带有提前终止的顺序数据依赖 MHT。因此,aLTT 可以减少测试轮数,使其特别适合测试成本高或存在安全风险的场景。除了保持统计有效性外,在离线强化学习的在线策略选择和工程系统超参数调整等应用中,aLTT 被证明可以达到与 LTT 相同的性能,同时只需要一小部分的测试轮数。
发布时间: 9/25/2024
查看原文
大型语言模型 (LLM) 通过在海量数据集上进行预训练,编码了广泛的 world knowledge,这些知识可以被进一步微调用于问答 (QA) 任务。然而,针对 QA 任务对 LLM 进行微调的有效策略仍然很大程度上未被探索。为了填补这一空白,我们根据预训练的 LLM 所记忆的知识程度对监督式微调 (SFT) 数据进行分类,并进行了一系列的实证分析。我们的实验涉及三个不同模型家族的四个 LLM,重点关注三个关键因素:SFT 所需的数据量、不同 SFT 数据集对模型性能的影响以及数据需求在不同 LLM 之间的差异。结果表明,在 SFT 阶段,仅需 60 个数据点就可以激活预训练期间编码的知识,使 LLM 能够执行 QA 任务。此外,使用不同记忆水平的数据进行 SFT 对 LLM 的性能有显著影响,最佳数据集根据被微调的特定模型而有所不同。未来的研究将深入探讨这些现象背后的机制。
发布时间: 9/25/2024
查看原文