LLM2D

摘要

arXiv:2502.09854v1 宣传类型：交叉摘要：在这项工作中，我们证明了小型语言模型（SLMs），特别是100M参数的GPT-2模型，在多任务提示生成任务中能够达到与大型语言模型（LLMs）相当的性能，但只需要后者的极小一部分计算资源。通过一种新颖的倒置强化学习结合来自强大力量的LLM——Llama-3的合成数据提炼，我们训练了一个SLM，尽管该模型的规模最多小了80倍，仍能达到与最先进的模型（包括Llama-3、Qwen2和Mistral）相近的相关性得分，使其非常适合资源受限和实时应用。这项研究突显了SLMs在多模态环境下的高效多任务学习潜力，提供了在可扩展和低延迟部署方面LLMs的有希望的替代方案。