LLM2D

摘要

arXiv:2407.14482v3 通知类型: 交叉替换摘要: 在这项工作中，我们介绍了基于 Llama 3.0，具有 128K 上下文窗口的 ChatQA 2 模型，旨在弥合开源大语言模型和领先专有模型（例如 GPT-4-Turbo-2024-04-09）之间的鸿沟，在长上下文理解和检索增强生成 (RAG) 能力方面。这两种能力相辅相成，对于处理难以在单个提示中容纳的大信息量的 LLM 至关重要。我们介绍了一套详细的继续训练食谱，将 Llama3-70B-base 的上下文窗口从 8K 扩展到 128K 令牌，并与一个三阶段指令调优过程一起，以增强模型的指令遵循、RAG 性能和长上下文理解能力。我们的结果表明，Llama3-ChatQA-2-70B 模型在超长任务（超过 100K 令牌）以及使用 4K 上下文窗口的 RAG 基准测试中优于现有的大多数最先进的模型，包括 GPT-4-Turbo-2024-04-09、Qwen2-72B-Instruct 和 Llama3.1-70B-Instruct，展示了不同序列长度的强长上下文能力。我们还提供了在使用相同最先进的长时间上下文 LLM 的直接长时间上下文与 RAG 解决方案之间的广泛比较。有趣的是，我们发现，当检索更多块时，使用 RAG 的强长时间上下文 LLM 的性能有所提升。有了大量的 top-k 块，RAG 在 32K 和 128K 基准测试中始终优于使用相同最先进的长时间上下文模型（例如 Llama3-ChatQA-2-70B 和 Qwen2-72B-Instruct）的直接长时间上下文解决方案。我们开源了模型权重、训练数据和评估设置供社区使用：https://chatqa2-project.github.io/