LLM2D

摘要

arXiv:2505.00979v1 宣布类型: cross 摘要：大型语言模型（LLMs）已经取得了令人瞩目的成就，但在从少量的专业语料库中学习时，尤其是在有限且未经公开的数据情况下，它们仍然表现出数据效率低的问题。现有的继续预训练的合成数据生成方法主要关注文档内部的内容，而忽视了跨文档的知识关联，这限制了内容的多样性和深度。我们提出了一种名为Synthetic-on-Graph（SoG）的合成数据生成框架，该框架结合了跨文档的知识关联，以实现高效语料库扩展。SoG通过从原始语料库中提取实体和概念来构建上下文图，表示跨文档的关联，并采用图行走策略进行知识关联采样。这增强了合成数据的多样性和连贯性，使模型能够学习复杂的知识结构并处理罕见的知识。为了进一步提高合成数据的质量，我们结合了Chain-of-Thought（CoT）和Contrastive Clarifying（CC）合成方法，增强了推理过程和鉴别能力。实验结果显示，在多跳文档问答数据集中，SoG 的性能优于最先进的方法（SOTA），而在阅读理解任务数据集中，SoG 的表现与SOTA方法相当，这进一步突显了SoG更好的泛化能力。我们的工作推进了合成数据生成，并为LLMs在数据可用性有限的领域提供了实用的解决方案，特别是在知识获取方面。