摘要
arXiv:2407.14482v3 通知类型: 交叉替换
摘要: 在这项工作中,我们介绍了基于 Llama 3.0,具有 128K 上下文窗口的 ChatQA 2 模型,旨在弥合开源大语言模型和领先专有模型(例如 GPT-4-Turbo-2024-04-09)之间的鸿沟,在长上下文理解和检索增强生成 (RAG) 能力方面。这两种能力相辅相成,对于处理难以在单个提示中容纳的大信息量的 LLM 至关重要。我们介绍了一套详细的继续训练食谱,将 Llama3-70B-base 的上下文窗口从 8K 扩展到 128K 令牌,并与一个三阶段指令调优过程一起,以增强模型的指令遵循、RAG 性能和长上下文理解能力。我们的结果表明,Llama3-ChatQA-2-70B 模型在超长任务(超过 100K 令牌)以及使用 4K 上下文窗口的 RAG 基准测试中优于现有的大多数最先进的模型,包括 GPT-4-Turbo-2024-04-09、Qwen2-72B-Instruct 和 Llama3.1-70B-Instruct,展示了不同序列长度的强长上下文能力。我们还提供了在使用相同最先进的长时间上下文 LLM 的直接长时间上下文与 RAG 解决方案之间的广泛比较。有趣的是,我们发现,当检索更多块时,使用 RAG 的强长时间上下文 LLM 的性能有所提升。有了大量的 top-k 块,RAG 在 32K 和 128K 基准测试中始终优于使用相同最先进的长时间上下文模型(例如 Llama3-ChatQA-2-70B 和 Qwen2-72B-Instruct)的直接长时间上下文解决方案。我们开源了模型权重、训练数据和评估设置供社区使用:https://chatqa2-project.github.io/