LLM2D

摘要

arXiv:2502.02028v1 交叉公告类型摘要：本文研究了通过微调各种非常小的语言模型来生成食谱任务，重点关注开发稳健的评估指标，并在不同语言模型之间比较开放性任务——食谱生成的表现。本研究进行了广泛的实验，涉及多种模型架构，从T5-small（Raffel等人，2023年）和SmolLM-135M（Allal等人，2024年），到Phi-2（Research，2023年）。实验使用了传统NLP指标和自定义领域特定评估指标。我们的新颖评估框架包括针对内容质量的食谱特定指标，并引入了过敏原替换的方法。结果表明，尽管在标准指标上较大的模型通常表现更好，但在考虑领域特定指标时，模型大小与食谱质量之间的关系更加复杂。我们发现，尽管SmolLM-360M和SmolLM-1.7B的尺寸不同，它们在性能上表现出色，而Phi-2尽管参数更多，在食谱生成方面却显示出局限性。我们全面的评估框架和过敏原替换系统为未来在食谱生成和更广泛需要领域专业知识和安全考虑的NLG任务中提供了有价值的见解。