LLM2D

摘要

arXiv:2501.00062v2 通告类型: replace-cross 摘要：双向变压器在情感分析方面表现出色，而大型语言模型（LLM）是有效的零样本学习者。它们作为团队可能表现得更好吗？本文探索了ELECTRA和GPT-4o在三分类情感分类方面的协作方法。我们使用斯坦福情感树库（SST）和DynaSent中的混合评论对四个模型（ELECTRA Base/Large、GPT-4o/4o-mini）进行了微调（FT）。我们将ELECTRA的输入提供给GPT，包括预测标签、概率以及检索的示例。向GPT-4o-mini共享ELECTRA Base FT预测显著提高了性能（宏F1得分为82.50，高于仅使用ELECTRA Base FT的79.14和仅使用GPT-4o-mini的79.41），并提供了最低的成本/性能比（每0.12美元/F1点）。然而，当GPT模型进行微调时，包括预测反而降低了性能。GPT-4o FT-M表现出色（得分为86.99），而GPT-4o-mini FT紧随其后（得分为86.70），成本更低得多（每0.38美元/F1点比每1.59美元/F1点）。我们的结果表明，与微调编码器预测一起增强提示是一种有效的方法，以提高性能，并且微调后的GPT-4o-mini在成本降低76%的情况下几乎与GPT-4o FT表现相当。两者都是资源有限项目的经济选择。