LLM2D
在黑暗中提示:在缺乏权威标签时对提示工程的人工性能评估
Prompting in the Dark: Assessing Human Performance in Prompt Engineering for Data Labeling When Gold Labels Are Absent
作者: Zeyu He, Saniya Naphade, Ting-Hao 'Kenneth' Huang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11267v1

摘要

arXiv:2502.11267v1 通知类型: cross 摘要:数百万用户向大型语言模型(LLMs)提出各种任务,但人们在提示工程方面做得如何?用户是否在多次迭代提示后能够接近其期望的结果?当没有黄金标准标签来衡量进度时,这些问题尤为重要。本文研究了LLM支持的数据标注场景,“黑暗中的提示”,在这个场景中,用户通过不使用手动标注的基准来迭代提示LLMs进行数据标注。我们开发了PromptingSheet,这是一种Google Sheets附加组件,使用户能够通过电子表格来组成、修订和迭代标注数据。通过一项涉及20名参与者的研究,我们发现,在四次或更多次迭代后,只有9名参与者提高了标注准确率。当可用的黄金标签较少时,自动化提示优化工具如DSPy也难以发挥作用。我们的研究结果突显了黄金标签的重要性以及自动化支持在人类提示工程中的需求和风险,为未来的工具设计提供了启示。