摘要
arXiv:2501.10970v2 宣布类型: 替换-交叉
摘要: "LLM作为裁判"范式利用大型语言模型(LLMs)作为传统上由人类执行的任务中的标注者和评估者。LLM的标注被广泛使用,不仅在自然语言处理研究中,还在医学、心理学和社会科学等领域中。尽管LLM在塑造研究结果和见解方面发挥着重要作用,但尚无标准或严谨的程序来确定LLM是否能够取代人类标注者。在这篇论文中,我们提出了一种新的统计程序——替代标注者测试(alt-test),只需要少量标注示例即可证明使用LLM标注的有效性。此外,我们还介绍了用于比较LLM裁判的灵活且可解释的度量标准。为了展示我们的程序,我们收集了十个多样化的数据集,包括语言和多模态任务,并使用六种LLM和四种提示技术进行了实验。结果表明,有时可以使用闭源LLM(例如GPT-4o)来替代人类,表现出色,并且提示技术可以产生不同质量的裁判。我们希望这项研究能够鼓励更加严谨和可靠的做法。