LLM2D

摘要

arXiv:2409.13749v1 公告类型: 交叉摘要: 尽管功能强大，当前最先进的LLMs可能无法满足高度专业化领域的需求。我们推出了KodeXv0.1，这是一系列在金融问答方面超越GPT-4的大型语言模型。我们利用Llama 3.1 8B和70B的基础变体，并通过定制的训练机制将其适应于金融领域。为此，我们收集并处理了大量公开的金融文档，如财报电话会议和商业报告。这些文档用于生成高质量的合成数据集，包含与现实世界金融任务高度相似的上下文-问题-答案三元组。使用该数据集的训练部分，我们对Llama 3.1基础变体进行RAG感知的4bit LoRA指令微调，以生成KodeX-8Bv0.1和KodeX-70Bv0.1。随后，我们使用FinanceBench、FinQABench和我们数据集的保留测试部分进行了广泛的模型评估。结果显示，KodeX-8Bv0.1在金融情境中的可靠性优于同一参数范围内的最先进指令模型，最高超出9.24%。此外，它甚至能够超越GPT-4等最先进的专有模型，最高超出7.07%。KodeX-70Bv0.1在此基础上进一步改进，在所有测试基准上均超越了GPT-4的表现。