LLM2D

摘要

arXiv:2411.14654v3 通告类型: 替换-交叉摘要：大型语言模型（LLMs）通过在各种任务中提供最先进的性能，已经彻底革新了自然语言处理（NLP）。在这之中，基于Transformer的模型如BERT和GPT依赖于池化层将令牌级嵌入聚合为句子级表示。常见的池化机制如平均值、最大值和加权和在这一聚合过程中发挥着关键作用。尽管这些策略在各种场景中被广泛使用，但在不同LLM架构之间的比较性能仍然未被充分探索。为了解决这一差距，本文探讨了这些池化机制对两种 prominence 的LLM 家族——BERT 和 GPT 在句子级情感分析中的影响。全面的实验表明，每种池化机制根据特定任务的需求表现出独特的 strengths 和 weaknesses。我们的研究结果强调了选择适合特定应用需求的池化方法的重要性，从而促使重新评估关于池化操作的常见假设。通过提供可操作的见解，本研究为基于LLM的模型优化下游任务做出了贡献。