LLM2D
参数化合成文本生成:SimpleStories 方法
Parameterized Synthetic Text Generation with SimpleStories
作者: Lennart Finke, Thomas Dooms, Mat Allen, Juan Diego Rodriguez, Noa Nabeshima, Dan Braun
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09184v1

摘要

arXiv:2504.09184v1 类别: cross 摘要: 我们介绍了一种名为 SimpleStories 的大型合成故事数据集,使用简单语言,包含200万条故事,每种语言各有100万条,分别用英语和日语编写。我们的方法通过在多个抽象层次上对提示进行参数化,允许对故事特征进行系统控制,以确保广泛的句法学和语义多样性。基于并解决了 TinyStories 数据集的局限性,我们的方法证明,在大规模合成文本生成中,简洁性和多样性是能够同时实现的。