LLM2D
通过反转强化学习在小型语言模型中实现高效的多任务学习
Efficient Multitask Learning in Small Language Models Through Upside-Down Reinforcement Learning
作者: Yu-Chen Lin, Sanat Sharma, Hari Manikandan, Jayant Kumar, Tracy Holloway King, Jing Zheng
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09854v1

摘要

arXiv:2502.09854v1 宣传类型:交叉 摘要:在这项工作中,我们证明了小型语言模型(SLMs),特别是100M参数的GPT-2模型,在多任务提示生成任务中能够达到与大型语言模型(LLMs)相当的性能,但只需要后者的极小一部分计算资源。通过一种新颖的倒置强化学习结合来自强大力量的LLM——Llama-3的合成数据提炼,我们训练了一个SLM,尽管该模型的规模最多小了80倍,仍能达到与最先进的模型(包括Llama-3、Qwen2和Mistral)相近的相关性得分,使其非常适合资源受限和实时应用。这项研究突显了SLMs在多模态环境下的高效多任务学习潜力,提供了在可扩展和低延迟部署方面LLMs的有希望的替代方案。