摘要
arXiv:2502.09854v1 宣传类型:交叉
摘要:在这项工作中,我们证明了小型语言模型(SLMs),特别是100M参数的GPT-2模型,在多任务提示生成任务中能够达到与大型语言模型(LLMs)相当的性能,但只需要后者的极小一部分计算资源。通过一种新颖的倒置强化学习结合来自强大力量的LLM——Llama-3的合成数据提炼,我们训练了一个SLM,尽管该模型的规模最多小了80倍,仍能达到与最先进的模型(包括Llama-3、Qwen2和Mistral)相近的相关性得分,使其非常适合资源受限和实时应用。这项研究突显了SLMs在多模态环境下的高效多任务学习潜力,提供了在可扩展和低延迟部署方面LLMs的有希望的替代方案。