LLM2D
大型语言模型综述:一些关于其能力和局限性的见解
A Survey on Large Language Models with some Insights on their Capabilities and Limitations
作者: Andrea Matarazzo, Riccardo Torlone
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2501.04040v2

摘要

arXiv:2501.04040v2 宣布类型: 替换-交叉引用 摘要:人工智能的迅速发展,尤其是在基于变压器架构构建的大语言模型(LLMs)的发展推动下,重新定义了自然语言处理的能力。这些模型现在在文本生成、问答、翻译和总结等各种语言相关任务中表现出色,常常与人类般的理解能力相媲美。更有趣的是,LLMs 已经展示了超出其核心功能的新兴能力,表现出在常识推理、代码生成和算术等任务上的熟练度。本文综述了驱动这些能力的基础组件、扩展机制和架构策略。强调像 GPT 和 LLaMA 这样的模型,我们分析了指数级数据和计算增长对 LLM 性能的影响,同时讨论了扩展过程中的权衡。我们还探讨了 LLM 在各个领域的应用,如医疗保健、金融、教育和法律,突显了它们的适应性和解决特定领域挑战的潜力。本文的核心问题是 LLM 在不同任务中的泛化能力、规划能力和推理能力,以及这些新兴能力能否系统地激发或增强。特别是,我们提供了一些关于 LLM 内部 CoT(思维链)和 PoT(思维计划)能力的见解,集中在预训练数据如何影响它们的出现。此外,我们研究了结合外部系统的 LLM 框架,使 LLM 能够处理复杂和动态的任务。通过分析这些因素,本文旨在促进对 LLM 的能力和限制的持续讨论,推动它们在新奇和日益复杂的环境中的负责任开发和应用。