摘要
arXiv:2501.00062v2 通告类型: replace-cross
摘要:双向变压器在情感分析方面表现出色,而大型语言模型(LLM)是有效的零样本学习者。它们作为团队可能表现得更好吗?本文探索了ELECTRA和GPT-4o在三分类情感分类方面的协作方法。我们使用斯坦福情感树库(SST)和DynaSent中的混合评论对四个模型(ELECTRA Base/Large、GPT-4o/4o-mini)进行了微调(FT)。我们将ELECTRA的输入提供给GPT,包括预测标签、概率以及检索的示例。向GPT-4o-mini共享ELECTRA Base FT预测显著提高了性能(宏F1得分为82.50,高于仅使用ELECTRA Base FT的79.14和仅使用GPT-4o-mini的79.41),并提供了最低的成本/性能比(每0.12美元/F1点)。然而,当GPT模型进行微调时,包括预测反而降低了性能。GPT-4o FT-M表现出色(得分为86.99),而GPT-4o-mini FT紧随其后(得分为86.70),成本更低得多(每0.38美元/F1点比每1.59美元/F1点)。我们的结果表明,与微调编码器预测一起增强提示是一种有效的方法,以提高性能,并且微调后的GPT-4o-mini在成本降低76%的情况下几乎与GPT-4o FT表现相当。两者都是资源有限项目的经济选择。