LLM2D

摘要

arXiv:2501.04040v2 宣布类型: 替换-交叉引用摘要：人工智能的迅速发展，尤其是在基于变压器架构构建的大语言模型（LLMs）的发展推动下，重新定义了自然语言处理的能力。这些模型现在在文本生成、问答、翻译和总结等各种语言相关任务中表现出色，常常与人类般的理解能力相媲美。更有趣的是，LLMs 已经展示了超出其核心功能的新兴能力，表现出在常识推理、代码生成和算术等任务上的熟练度。本文综述了驱动这些能力的基础组件、扩展机制和架构策略。强调像 GPT 和 LLaMA 这样的模型，我们分析了指数级数据和计算增长对 LLM 性能的影响，同时讨论了扩展过程中的权衡。我们还探讨了 LLM 在各个领域的应用，如医疗保健、金融、教育和法律，突显了它们的适应性和解决特定领域挑战的潜力。本文的核心问题是 LLM 在不同任务中的泛化能力、规划能力和推理能力，以及这些新兴能力能否系统地激发或增强。特别是，我们提供了一些关于 LLM 内部 CoT（思维链）和 PoT（思维计划）能力的见解，集中在预训练数据如何影响它们的出现。此外，我们研究了结合外部系统的 LLM 框架，使 LLM 能够处理复杂和动态的任务。通过分析这些因素，本文旨在促进对 LLM 的能力和限制的持续讨论，推动它们在新奇和日益复杂的环境中的负责任开发和应用。