摘要
arXiv:2402.06196v3 公告类型: 替换-交叉
摘要:由于自2022年11月发布ChatGPT以来,通用语言模型(LLMs)在广泛自然语言任务中的出色表现引起了广泛关注。根据扩增定律(scaling laws)[kaplan2020scaling,hoffmann2022training],LLMs的广泛语言理解和生成能力是在海量文本数据上训练数十亿模型参数而获得的。虽然LLMs的研究领域非常新,但其在许多不同方面迅速发展。本文回顾了其中一些最突出的LLMs,包括三种流行的LLM系列(GPT、LLaMA、PaLM),并讨论了它们的特点、贡献和局限性。我们还概述了用于构建和增强LLMs的技术。然后,我们概述了为LLM训练、微调和评估准备的流行数据集,回顾了广泛使用的LLM评估指标,并比较了几种流行LLMs在一组代表性基准上的性能。最后,我们通过讨论开放的挑战和未来的研究方向为论文做总结。