LLM2D

摘要

arXiv:2504.20605v1 宣告类型: 交叉摘要：道德故事是传承价值观的传统载体，但现代NLP缺乏一个大型且结构化的语料库，能够将连贯的叙事与明确的道德教训相结合。我们通过TF1-EN-3M弥补了这个缺口，这是首个开放的数据集，包含了三百万篇英语寓言，这些寓言完全由不超过80亿参数的指令微调模型生成。每篇故事遵循六槽结构（角色 -> 特质 -> 场景 -> 冲突 -> 解决方案 -> 道德教训），通过一个组合提示引擎保证了文体一致性和广泛的主题覆盖范围。一种混合评估流水线结合了(i)一个基于GPT的批判者，用于评估语法、创造力、道德清晰度和模板一致性，以及(ii)无参考多样性和可读性指标。在十款开放加权候选模型中，80亿参数的Llama-3变体提供了最佳的质量-速度权衡，可以在单个消费者级GPU（约24GB显存）上生成高评分寓言，每千篇寓言成本约为13.5美分。我们以宽松的许可证发布了数据集、生成代码、评估脚本和完整元数据，确保可完全重现并进行成本基准测试。TF1-EN-3M为指令跟随、叙事智能、价值观对齐以及儿童友好的教育AI研究开辟了途径，证明了大规模道德叙事故事不再需要专有的巨无霸模型。