摘要
arXiv:2408.15204v2 通告类型: 替换-交叉引用
摘要:大规模语言模型(LLMs)在各种任务上都与人类评估者高度一致,这表明其有助于缓解人类数据收集的挑战。在计算社会科学研究(CSS)中,研究人员越来越多地利用LLM注释来补充缓慢且昂贵的人类注释。然而,有关如何收集和使用LLM注释而不损害下游结论的有效性的指导仍然有限。我们介绍了基于信心推断(Confidence-Driven Inference):该方法结合了LLM注释和LLM信心指标,战略性地选择应收集的人类注释,旨在通过减少所需的人类注释数量,同时产生准确的统计估计和可证明有效的置信区间。我们的方法包括防止低质量LLM注释的安全措施,确保结论将既有效又至少与仅依赖人类注释时一样准确。我们在三个CSS设置——文本礼貌、立场和偏见——中证明了基于信心推断相对于基线在统计估计任务中的有效性,每个设置中减少了超过25%所需的人类注释数量。尽管我们使用CSS设置进行演示,但基于信心推断可以用于广泛NLP问题中大多数标准量的估计。