摘要
arXiv:2502.02028v2 宣告类型: 替换-交叉
摘要:本研究通过细调各种非常小的语言模型,对食谱生成任务进行了探索和研究,重点在于开发稳健的评估指标,并在不同语言模型中比较开放式食谱生成任务的表现。本研究对多种模型架构进行了广泛的实验,从T5-small(Raffel等,2023)和SmolLM-135M(Allal等,2024)到Phi-2(科研团队,2023),实施了传统NLP指标和自定义领域特定评估指标。我们的新型评估框架引入了针对内容质量的食谱特定指标,并提出了过敏原替代的方法。结果显示,虽然较大的模型通常在标准指标上表现更好,但在考虑领域特定指标时,模型大小与食谱质量之间的关系更为复杂。经过微调的SmolLM-360M和SmolLM-1.7B在大小不同的情况下仍表现出相当的性能,而微调Phi-2在食谱生成方面的表现存在明显局限,尽管其参数量更大。综合评估框架和过敏原替代系统为未来在食谱生成和需要领域专业知识和安全考虑的更广泛NLG任务中的研究提供了宝贵的见解。