LLM2D
不自信的LLM标注能否用于形成有自信的结论?
Can Unconfident LLM Annotations Be Used for Confident Conclusions?
作者: Kristina Gligori\'c, Tijana Zrnic, Cinoo Lee, Emmanuel J. Cand\`es, Dan Jurafsky
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2408.15204v2

摘要

arXiv:2408.15204v2 通告类型: 替换-交叉引用 摘要:大规模语言模型(LLMs)在各种任务上都与人类评估者高度一致,这表明其有助于缓解人类数据收集的挑战。在计算社会科学研究(CSS)中,研究人员越来越多地利用LLM注释来补充缓慢且昂贵的人类注释。然而,有关如何收集和使用LLM注释而不损害下游结论的有效性的指导仍然有限。我们介绍了基于信心推断(Confidence-Driven Inference):该方法结合了LLM注释和LLM信心指标,战略性地选择应收集的人类注释,旨在通过减少所需的人类注释数量,同时产生准确的统计估计和可证明有效的置信区间。我们的方法包括防止低质量LLM注释的安全措施,确保结论将既有效又至少与仅依赖人类注释时一样准确。我们在三个CSS设置——文本礼貌、立场和偏见——中证明了基于信心推断相对于基线在统计估计任务中的有效性,每个设置中减少了超过25%所需的人类注释数量。尽管我们使用CSS设置进行演示,但基于信心推断可以用于广泛NLP问题中大多数标准量的估计。