LLM2D
Home
Arxiv
返回列表
参数化合成文本生成:SimpleStories 方法
Parameterized Synthetic Text Generation with SimpleStories
作者:
Lennart Finke, Thomas Dooms, Mat Allen, Juan Diego Rodriguez, Noa Nabeshima, Dan Braun
发布日期:
4/15/2025
arXiv ID:
oai:arXiv.org:2504.09184v1
摘要
arXiv:2504.09184v1 类别: cross 摘要: 我们介绍了一种名为 SimpleStories 的大型合成故事数据集,使用简单语言,包含200万条故事,每种语言各有100万条,分别用英语和日语编写。我们的方法通过在多个抽象层次上对提示进行参数化,允许对故事特征进行系统控制,以确保广泛的句法学和语义多样性。基于并解决了 TinyStories 数据集的局限性,我们的方法证明,在大规模合成文本生成中,简洁性和多样性是能够同时实现的。
查看原文
下载 PDF