LLM2D

摘要

大型语言模型 (LLM) 通过在各种任务中提供最先进的性能，彻底改变了自然语言处理 (NLP)。其中，基于 Transformer 的模型（如 BERT 和 GPT）依靠池化层将标记级嵌入聚合为句子级表示。平均、最大和加权和等常见的池化机制在这个聚合过程中起着关键作用。尽管这些机制被广泛使用，但这些策略在不同 LLM 架构上的比较性能仍然缺乏探索。为了解决这一差距，本文研究了这些池化机制对两个突出的 LLM 系列——BERT 和 GPT——在句子级情感分析中的影响。全面的实验表明，每种池化机制都根据任务的具体要求展现出独特的优势和劣势。我们的研究结果强调了根据特定应用的需求选择池化方法的重要性，促使人们重新评估关于池化操作的常见假设。通过提供可操作的见解，本研究有助于优化面向下游任务的基于 LLM 的模型。