摘要
arXiv:2409.14673v1 公告类型: 交叉 摘要: 大型语言模型(LLMs)在计算社会科学(CSS)任务中的实际应用主要依赖于指令调优(IT)或上下文学习(ICL)的有效性。虽然IT在微调LLMs以适应各种任务方面表现出色,但ICL通过从示例中学习而不进行显式梯度更新,提供了快速的任务适应替代方案。本文评估了LLMs在少样本CSS任务中使用IT与ICL的分类性能。实验结果表明,在大多数CSS任务中,ICL始终优于IT。此外,我们研究了训练样本数量增加与LLM性能之间的关系。我们的研究结果显示,在不考虑样本质量的情况下,仅增加样本数量并不能持续提升LLMs的性能,有时甚至会导致性能下降。最后,我们比较了三种提示策略,证明ICL比零样本和思维链(CoT)更有效。我们的研究突显了ICL在处理少样本设置中的CSS任务方面的显著优势,并强调了优化样本质量和提示策略以提高LLM分类性能的重要性。代码将公开。