LLM2D

摘要

arXiv:2502.02028v1 交叉公告类型：cross 摘要：本文探讨了通过微调各种非常小的语言模型来完成食谱生成任务，重点关注开发稳健的评估指标，并在不同语言模型之间比较开放式食谱生成任务。本研究进行了广泛的实验，涵盖了从T5-small（Raffel et al., 2023）、SmolLM-135M（Allal et al., 2024）到Phi-2（Research, 2023）的多种模型架构，实施了传统NLP指标和自定义领域特定评估指标。我们的新颖评估框架包含了针对内容质量的食谱特定指标，并引入了一种过敏原替代的方法。研究结果表明，虽然更大的模型通常在标准指标上表现更好，但在考虑领域特定指标时，模型大小与食谱质量之间的关系更为复杂。我们发现，尽管SmolLM-360M和SmolLM-1.7B在大小上有差异，但它们在性能上表现出可比性，而Phi-2尽管参数更多，在食谱生成方面显示出局限性。我们的全面评估框架和过敏原替代系统为未来在食谱生成及其他需要领域专业知识和安全考虑的更广泛NLG任务中的研究提供了宝贵见解。