LLM2D

摘要

arXiv:2502.03793v1 类型: cross 摘要：尽管如 BERT 和 ModernBERT 之类的编码器模型在实际的 NLP 应用中无处不在，但它们对特定任务分类头的常规依赖限制了它们的应用性，使其与基于解码器的大型语言模型 (LLMs) 相比存在局限。在本文中，我们介绍了 ModernBERT-Large-Instruct，这是一个具有 0.4 亿参数的编码器模型，它利用其掩码语言建模 (MLM) 头进行生成分类。我们的方法采用了一种故意简单的训练循环和推理机制，无需进行复杂的预处理、精心设计的提示或架构修改。ModernBERT-Large-Instruct 在分类和基于知识的任务上表现出强大的零样本性能，在 MMLU 上的表现优于同样规模的 LLMs，并且仅使用了 Llama3-1B 参数量的 60% 就达到了其 93% 的 MMLU 性能。我们还展示，当进行微调时，使用 MLM 头的生成方法在各种 NLU 任务上能够匹配甚至超越传统的任务特定分类头方法。这种能力仅在训练数据为当代多样化的数据混合时才出现，训练数据量较少且多样性较低的模型表现出了明显更弱的性能。虽然初步结果有限，但这些结果表明使用原始的生成掩码语言建模头而非传统任务特定头来为下游任务提供支持的潜力。我们的工作表明，进一步探索这一领域是值得的，指出了许多未来改进的途径。