LLM2D

摘要

arXiv:2408.15204v2 通告类型: 替换-交叉引用摘要：大规模语言模型（LLMs）在各种任务上都与人类评估者高度一致，这表明其有助于缓解人类数据收集的挑战。在计算社会科学研究（CSS）中，研究人员越来越多地利用LLM注释来补充缓慢且昂贵的人类注释。然而，有关如何收集和使用LLM注释而不损害下游结论的有效性的指导仍然有限。我们介绍了基于信心推断（Confidence-Driven Inference）：该方法结合了LLM注释和LLM信心指标，战略性地选择应收集的人类注释，旨在通过减少所需的人类注释数量，同时产生准确的统计估计和可证明有效的置信区间。我们的方法包括防止低质量LLM注释的安全措施，确保结论将既有效又至少与仅依赖人类注释时一样准确。我们在三个CSS设置——文本礼貌、立场和偏见——中证明了基于信心推断相对于基线在统计估计任务中的有效性，每个设置中减少了超过25%所需的人类注释数量。尽管我们使用CSS设置进行演示，但基于信心推断可以用于广泛NLP问题中大多数标准量的估计。