摘要
arXiv:2505.00979v1 宣布类型: cross
摘要:大型语言模型(LLMs)已经取得了令人瞩目的成就,但在从少量的专业语料库中学习时,尤其是在有限且未经公开的数据情况下,它们仍然表现出数据效率低的问题。现有的继续预训练的合成数据生成方法主要关注文档内部的内容,而忽视了跨文档的知识关联,这限制了内容的多样性和深度。我们提出了一种名为Synthetic-on-Graph(SoG)的合成数据生成框架,该框架结合了跨文档的知识关联,以实现高效语料库扩展。SoG通过从原始语料库中提取实体和概念来构建上下文图,表示跨文档的关联,并采用图行走策略进行知识关联采样。这增强了合成数据的多样性和连贯性,使模型能够学习复杂的知识结构并处理罕见的知识。为了进一步提高合成数据的质量,我们结合了Chain-of-Thought(CoT)和Contrastive Clarifying(CC)合成方法,增强了推理过程和鉴别能力。实验结果显示,在多跳文档问答数据集中,SoG 的性能优于最先进的方法(SOTA),而在阅读理解任务数据集中,SoG 的表现与SOTA方法相当,这进一步突显了SoG更好的泛化能力。我们的工作推进了合成数据生成,并为LLMs在数据可用性有限的领域提供了实用的解决方案,特别是在知识获取方面。